Xarxes bayesianes: definició, exemples i com funcionen

2026 Autora: Angel Austin | [email protected]. Última modificació: 2025-01-23 12:21:08

Una creença, una xarxa de decisions, un model bayesià (ian) o un model de gràfic acíclic basat en probabilitats és un esquema variant (un tipus de model estadístic) que representa un conjunt de variables i les seves dependències condicionals mitjançant un gràfic acíclic dirigit (DAG).).

Per exemple, una xarxa bayesiana pot representar relacions probabilístiques entre mal alties i símptomes. Davant d'això últim, la xarxa es pot utilitzar per calcular la possibilitat de tenir diverses mal alties. Al vídeo següent podeu veure un exemple de xarxa de creences bayesianes amb càlculs.

Eficiència

Els algorismes eficients poden realitzar inferència i aprenentatge a les xarxes bayesianes. Les xarxes que modelen variables (com ara senyals de parla o seqüències de proteïnes) s'anomenen xarxes dinàmiques. Les generalitzacions de xarxes bayesianes que poden representar i resoldre problemes sota incertesa s'anomenen diagrames d'influència.

Essència

FormalmentLes xarxes bayesianes són DAG els nodes dels quals representen variables en el sentit bayesià: poden ser valors observats, variables ocultes, paràmetres desconeguts o hipòtesis. Perquè és molt interessant.

Exemple de xarxa bayesiana

Dos esdeveniments poden fer que l'herba es mulli: un aspersor actiu o la pluja. La pluja té un efecte directe en l'ús de l'aspersor (és a dir, que quan plou, l'aspersor sol estar inactiu). Aquesta situació es pot modelar mitjançant una xarxa bayesiana.

Simulació

Com que la xarxa bayesiana és un model complet per a les seves variables i les seves relacions, es pot utilitzar per respondre consultes probabilístiques sobre elles. Per exemple, es pot utilitzar per actualitzar el coneixement sobre l'estat d'un subconjunt de variables quan s'observen altres dades (variables d'evidència). Aquest procés interessant s'anomena inferència probabilística.

A posteriori ofereix una estadística suficient universalment per a aplicacions de descobriment a l'hora d'escollir valors per a un subconjunt de variables. Així, aquest algorisme es pot considerar un mecanisme per aplicar automàticament el teorema de Bayes a problemes complexos. A les imatges de l'article podeu veure exemples de xarxes de creences bayesianes.

Mètodes de sortida

Els mètodes d'inferència exacta més comuns són: eliminació de variables, que elimina (per integració o suma) allò no observableparàmetres que no són de consulta un per un assignant l'import al producte.

Propagació de clics d'un "arbre" que guarda els càlculs a la memòria cau perquè es puguin consultar moltes variables alhora i es puguin propagar noves proves ràpidament; i la concordança i/o la cerca recursives, que permeten intercanvis entre l'espai i el temps i coincideixen amb l'eficiència de l'eliminació de variables quan s'utilitza prou espai.

Tots aquests mètodes tenen una complexitat especial que depèn exponencialment de la longitud de la xarxa. Els algorismes d'inferència aproximada més comuns són l'eliminació de mini-segments, la propagació cíclica de creences, la propagació generalitzada de creences i els mètodes variacionals.

Networking

Per especificar completament la xarxa bayesiana i, per tant, representar completament la distribució de probabilitat conjunta, cal especificar per a cada node X la distribució de probabilitat de X a causa dels pares de X.

La distribució de X condicionalment pels seus pares pot tenir qualsevol forma. És habitual treballar amb distribucions discretes o gaussianes, ja que simplifica els càlculs. De vegades només es coneixen les restriccions de distribució. A continuació, podeu utilitzar l'entropia per determinar la distribució única que té l'entropia més alta donades les restriccions.

De la mateixa manera, en el context específic d'una xarxa bayesiana dinàmica, la distribució condicional per a l'evolució temporal de la latentL'estat normalment es configura per maximitzar la taxa d'entropia del procés aleatori implícit.

Maximitzar directament la probabilitat (o probabilitat posterior) sovint és complicat donada la presència de variables no observades. Això és especialment cert per a una xarxa de decisió bayesiana.

Enfocament clàssic

L'enfocament clàssic d'aquest problema és l'algorisme de maximització de l'expectativa, que alterna el càlcul dels valors esperats de variables no observades dependents de les dades observades amb la maximització de la probabilitat total (o valor posterior), suposant que l'esperat calculat anteriorment els valors són correctes. En condicions de regularitat moderada, aquest procés convergeix en els valors màxims (o màxims a posteriori) dels paràmetres.

Un enfocament bayesià més complet dels paràmetres és tractar-los com a variables addicionals no observades i calcular la distribució posterior completa sobre tots els nodes donades les dades observades, i després integrar els paràmetres. Aquest enfocament pot ser costós i donar lloc a models grans, fent que els enfocaments clàssics d'ajust de paràmetres siguin més accessibles.

En el cas més senzill, una xarxa bayesiana la defineix un expert i després s'utilitza per fer inferències. En altres aplicacions, la tasca de determinar és massa difícil per a un humà. En aquest cas, l'estructura de la xarxa neuronal bayesiana i els paràmetres de les distribucions locals s'han d'aprendre entre les dades.

Mètode alternatiu

Un mètode alternatiu d'aprenentatge estructurat utilitza la cerca d'optimització. Això requereix l'aplicació d'una funció d'avaluació i una estratègia de cerca. Un algorisme de puntuació comú és la probabilitat posterior d'una estructura donada dades d'entrenament com ara BIC o BDeu.

El temps necessari per a una cerca exhaustiva que retorni una estructura que maximitza la puntuació és superexponencial en el nombre de variables. L'estratègia de cerca local fa canvis incrementals per millorar l'estimació de l'estructura. Friedman i els seus col·legues van considerar utilitzar informació mútua entre variables per trobar l'estructura desitjada. Restringeixen el conjunt de candidats principals a k nodes i els cerquen a fons.

Un mètode especialment ràpid per estudiar BN exactament és imaginar el problema com un problema d'optimització i resoldre'l mitjançant la programació de nombres enters. Les restriccions d'aciclicitat s'afegeixen al programa sencer (IP) durant la solució en forma de plans de tall. Aquest mètode pot gestionar problemes fins a 100 variables.

Resolució de problemes

Per resoldre problemes amb milers de variables, cal un enfocament diferent. Un és triar primer un ordre i després trobar l'estructura BN òptima respecte a aquest ordre. Això implica treballar en l'espai de cerca de possibles ordenacions, la qual cosa és convenient perquè és més petit que l'espai de les estructures de xarxa. A continuació, es seleccionen i avaluen diverses comandes. Aquest mètode va resultarmillor disponible a la literatura quan el nombre de variables és gran.

Un altre mètode és centrar-se en una subclasse de models descomposables per als quals els MLE estan tancats. Aleshores podeu trobar una estructura coherent per a centenars de variables.

Estudiar xarxes bayesianes amb una amplada limitada de tres línies és necessari per proporcionar una inferència precisa i interpretable, ja que la complexitat del pitjor dels casos és exponencial en la longitud de l'arbre k (segons la hipòtesi del temps exponencial). Tanmateix, com a propietat global del gràfic, augmenta molt la complexitat del procés d'aprenentatge. En aquest context, K-tree es pot utilitzar per a un aprenentatge efectiu.

Desenvolupament

El desenvolupament d'una web de confiança bayesiana sovint comença amb la creació d'un DAG G de manera que X satisfaci una propietat de Markov local respecte a G. De vegades es tracta d'un DAG causal. S'estimen les distribucions de probabilitat condicionals de cada variable sobre els seus pares a G. En molts casos, en particular quan les variables són discretes, si la distribució conjunta de X és el producte d'aquestes distribucions condicionals, aleshores X esdevé una xarxa bayesiana respecte a G.

La "manta de nusos" de Markov és un conjunt de nusos. El quilt de Markov fa que el node sigui independent de la resta del blanc del node amb el mateix nom i és coneixement suficient per calcular-ne la distribució. X és una xarxa bayesiana respecte a G si cada node és condicionalment independent de tots els altres nodes, donat el seu markovià.manta.