Perceptron és Definició del terme, característiques, aplicació

Taula de continguts:

Perceptron és Definició del terme, característiques, aplicació
Perceptron és Definició del terme, característiques, aplicació
Anonim

En l'aprenentatge automàtic, un perceptró és un algorisme d'aprenentatge supervisat per a classificadors binaris. També s'anomena sovint perceptró. Un classificador binari és una funció que pot decidir si una entrada, representada per un vector de nombres, pertany a alguna classe particular. Aquest és un tipus de classificador lineal, és a dir, un algorisme de classificació que fa les seves prediccions basant-se en una funció de predicció lineal que combina un conjunt de pesos amb un vector de característiques.

Fórmules de perceptrons
Fórmules de perceptrons

En els darrers anys, les xarxes neuronals artificials han cridat l'atenció a causa dels avenços en l'aprenentatge profund. Però, què és una xarxa neuronal artificial i en què consisteix?

Coneix el Perceptron

En aquest article, donarem un cop d'ull a les xarxes neuronals artificials en general, després mirarem una sola neurona i, finalment (aquesta és la part de codificació) farem la versió més bàsica d'una neurona artificial. neurona, el perceptró, i classificar els seus punts enavió.

T'has preguntat mai per què hi ha tasques tan fàcils per a qualsevol persona, però increïblement difícils per als ordinadors? Les xarxes neuronals artificials (ANN per abreujar) es van inspirar en el sistema nerviós central humà. Igual que la seva contrapart biològica, les ANN es basen en elements de processament de senyal simples que es combinen en una gran quadrícula.

Les xarxes neuronals han d'aprendre

A diferència dels algorismes tradicionals, les xarxes neuronals no es poden "programar" ni "sintonitzar" perquè funcionin com es pretén. Igual que el cervell humà, han d'aprendre a completar la tasca. A grans trets, hi ha tres estratègies d'aprenentatge.

La manera més senzilla es pot utilitzar si hi ha un cas de prova (prou gran) amb resultats coneguts. Aleshores, l'entrenament és així: processar un conjunt de dades. Compareu el resultat amb el resultat conegut. Configura la xarxa i torna-ho a provar. Aquesta és l'estratègia d'aprenentatge que farem servir aquí.

Aprenentatge no supervisat

Útil si no hi ha dades de prova disponibles i si és possible derivar alguna funció de cost del comportament desitjat. La funció de cost indica a la xarxa neuronal a quina distància està de l'objectiu. Aleshores, la xarxa pot ajustar els seus paràmetres sobre la marxa, treballant amb dades reals.

Aprenentatge reforçat

El mètode "pastanaga i pal". Es pot utilitzar si la xarxa neuronal genera una acció contínua. Amb el temps, la xarxa aprèn a preferir les accions adequades i a evitar-ne les equivocades.

D'acord, ara en sabem una micanaturalesa de les xarxes neuronals artificials, però de què estan fetes exactament? Què veurem si obrim la tapa i mirem dins?

Les neurones són els components bàsics de les xarxes neuronals. El component principal de qualsevol xarxa neuronal artificial és una neurona artificial. No només reben el nom dels seus homòlegs biològics, sinó que també tenen el model del comportament de les neurones del nostre cervell.

Biologia vs tecnologia

De la mateixa manera que una neurona biològica té dendrites per rebre senyals, un cos cel·lular per processar-los i un axó per enviar senyals a altres neurones, una neurona artificial té múltiples canals d'entrada, una etapa de processament i una sortida que pot ramificar-se a molts altres. neurones artificials.

Podem fer alguna cosa útil amb un sol perceptró? Hi ha una classe de problemes que un sol perceptró pot resoldre. Considereu el vector d'entrada com a coordenades puntuals. Per a un vector amb n elements, aquest punt viurà a l'espai n-dimensional. Per simplificar la vida (i el codi següent), suposem que és 2D. Com un tros de paper.

A continuació, imagina que dibuixem alguns punts aleatoris en aquest pla i els dividim en dos conjunts dibuixant una línia recta a través del paper. Aquesta línia divideix els punts en dos conjunts, un per sobre i un per sota de la línia. Aleshores, els dos conjunts s'anomenen separables linealment.

Un perceptró, per senzill que sembli, és capaç de saber on està aquesta línia i, quan ha acabat l'entrenament, pot determinar si un punt determinat està per sobre o per sota d'aquesta línia.

Històriainvents

L'algorisme d'aquest mètode va ser inventat el 1957 al Cornell Aviation Laboratory per Frank Rosenblatt (sovint el seu nom), finançat per l'Oficina d'Investigació Naval dels EUA. El perceptron estava pensat per ser una màquina, no un programa, i encara que la seva primera implementació va ser en programari per a l'IBM 704, posteriorment es va implementar en maquinari personalitzat com el "Mark 1 Perceptron". Aquesta màquina va ser dissenyada per al reconeixement d'imatges: tenia una matriu de 400 fotocèl·lules connectades aleatòriament a neurones. Els pesos es van codificar en potenciòmetres i l'actualització del pes durant l'entrenament es va fer mitjançant motors elèctrics.

En una conferència de premsa organitzada per la Marina dels Estats Units el 1958, Rosenblatt va fer declaracions sobre el perceptró que va provocar un acalorat debat entre la comunitat jove d'IA; basant-se en les afirmacions de Rosenblatt, el New York Times va informar que el perceptron és "l'ordinador electrònic embrionari que la Marina espera que pugui caminar, parlar, veure, escriure, reproduir-se i ser conscient de la seva existència".

Segments de perceptrons
Segments de perceptrons

Més desenvolupaments

Tot i que inicialment el perceptron semblava prometedor, es va demostrar ràpidament que no es podien entrenar els perceptrons per reconèixer moltes classes de patrons. Això va provocar un estancament en el camp de la investigació amb xarxes neuronals de perceptrons durant molts anys abans que es reconegués que una xarxa neuronal d'alimentació anticipada amb dues o més capes (també anomenadaperceptron multicapa) tenia molt més poder de processament que els perceptrons d'una sola capa (també anomenats perceptrons d'una sola capa). Un perceptró d'una sola capa només és capaç d'estudiar estructures separables linealment. L'any 1969, el famós llibre "Perceptrons" de Marvin Minsky i Seymour Papert va demostrar que aquestes classes de xarxes no podien aprendre la funció XOR. Tanmateix, això no s'aplica a les funcions de classificació no lineals que es poden utilitzar en un perceptró d'una sola capa.

Perceptron Rosenblatt
Perceptron Rosenblatt

L'ús d'aquestes funcions amplia les capacitats del perceptró, inclosa la implementació de la funció XOR. Sovint s'assumeix (incorrectament) que també van suposar que un resultat similar es mantindria per a una xarxa de perceptrons multicapa. Tanmateix, aquest no és el cas, ja que tant Minsky com Papert ja sabien que els perceptrons multicapa eren capaços de produir una funció XOR. Tres anys més tard, Steven Grossberg va publicar una sèrie d'articles que presentaven xarxes capaços de modelar funcions diferencials, funcions de millora del contrast i funcions XOR.

Els treballs es van publicar el 1972 i el 1973. No obstant això, el text sovint ignorat de Minsky/Papert va provocar una disminució significativa de l'interès i el finançament de la investigació amb el perceptró de la xarxa neuronal. Van passar deu anys més abans que la investigació de xarxes neuronals es revisqué als anys vuitanta.

Característiques

L'algoritme del nucli de Perceptron va ser introduït el 1964 per Yzerman et al. Mori i Rostamizadeh (2013), que amplien els resultats anteriors i donen nous límits L1.

Perceptron és un model simplificat d'una neurona biològica. Tot i que sovint es requereix la complexitat dels models neuronals biològics per entendre completament el comportament neuronal, la investigació demostra que un model lineal semblant al perceptró pot induir part del comportament observat a les neurones reals.

El Perceptró és un classificador lineal, de manera que mai entrarà en un estat amb tots els vectors d'entrada classificats correctament si el conjunt d'entrenament D no és separable linealment, és a dir. si els exemples positius no es poden separar dels exemples negatius per un hiperpla. En aquest cas, cap solució "aproximada" passarà pas a pas a través de l'algorisme d'aprenentatge estàndard, sinó que l'aprenentatge fallarà completament. Per tant, si la separabilitat lineal del conjunt d'entrenament no es coneix a priori, s'hauria d'utilitzar una de les opcions d'entrenament següents.

Relacions de perceptrons
Relacions de perceptrons

Algoritme de butxaca

L'algorisme de butxaca de trinquet resol el problema de robustesa de l'aprenentatge del perceptron mantenint la millor solució trobada fins ara "a la butxaca". L'algoritme de butxaca retorna la solució a la butxaca en lloc de l'última solució. També es pot utilitzar per a conjunts de dades no separables on l'objectiu és trobar un perceptró amb poques classificacions errònies. No obstant això, aquestes solucions semblen estocàstiques i, per tant, l'algoritme de butxaca no les encaixa.gradualment al llarg de l'entrenament i no es garanteix que es detectin durant un nombre determinat de passos d'entrenament.

Algoritme de Maxover

L'algorisme de Maxover és "robust" en el sentit que convergirà independentment del coneixement de la separabilitat lineal del conjunt de dades. En el cas d'un desdoblament lineal, això resoldrà el problema d'aprenentatge, opcionalment fins i tot amb una estabilitat òptima (marge màxim entre classes). Per als conjunts de dades no separables, es retornarà una solució amb un nombre reduït de classificacions errònies. En tots els casos, l'algoritme s'aproxima gradualment a la solució durant el procés d'aprenentatge, sense recordar estats anteriors i sense s alts aleatoris. La convergència rau en l'optimitat global per als conjunts de dades compartides i l'optimitat local per als conjunts de dades no separables.

equació de perceptró
equació de perceptró

Perceptron votat

L'algorisme Voted Perceptron és una variant que utilitza múltiples perceptrons ponderats. L'algorisme inicia un nou perceptró cada vegada que es classifica malament un exemple, inicialitzant el vector de pes amb els pesos finals de l'últim perceptró. A cada perceptró també se li donarà un pes diferent corresponent a quants exemples classifiquen correctament abans de classificar-ne un i, al final, la sortida serà un vot ponderat a tot el perceptró.

Aplicació

En problemes separables, l'entrenament de perceptrons també pot estar dirigit a trobar el límit de separació més gran entre les classes. L'anomenadaUn perceptró d'estabilitat òptim es pot determinar mitjançant esquemes d'entrenament i optimització iteratius com l'algoritme Min-Over o AdaTron. AdaTron aprofita el fet que el problema d'optimització quadràtica corresponent és convex. El perceptró d'estabilitat òptima, juntament amb el truc del nucli, és la base conceptual de la màquina de vectors de suport.

Perceptró multicapa
Perceptró multicapa

Alternativa

Una altra manera de resoldre problemes no lineals sense utilitzar múltiples capes és utilitzar xarxes d'ordre superior (bloc sigma-pi). En aquest tipus de xarxa, cada element del vector d'entrada s'amplia per cada combinació per parells d'entrades multiplicades (segon ordre). Això es pot estendre a una xarxa d'ordre n. El Perceptron és una cosa molt flexible.

No obstant això, recordeu que el millor classificador no és necessàriament el que classifica amb precisió totes les dades d'entrenament. De fet, si tinguéssim la restricció prèvia que les dades provenen de distribucions gaussianes d'igual variant, una divisió lineal a l'espai d'entrada és òptima i una solució no lineal es substitueix.

Altres algorismes de classificació lineal inclouen Winnow, vector de suport i regressió logística. Perceptron és un conjunt universal d'algorismes.

Traducció russa de l'esquema
Traducció russa de l'esquema

Àmbit principal per a l'aprenentatge supervisat

L'aprenentatge supervisat és una tasca d'aprenentatge automàtic que aprèn una funció que mapeja l'entrada a la sortidabasat en exemples de parells d'E/S. Dedueixen una característica a partir de dades d'entrenament etiquetades que consisteix en un conjunt d'exemples. En l'aprenentatge supervisat, cada exemple és un parell format per un objecte d'entrada (normalment un vector) i un valor de sortida desitjat (també anomenat senyal de control).

L'algorisme d'aprenentatge supervisat analitza les dades d'entrenament i produeix una funció estimada que es pot utilitzar per mostrar nous exemples. L'escenari òptim permetria a l'algoritme determinar correctament les etiquetes de classe per a instàncies invisibles. Això requereix que l'algoritme d'aprenentatge generali les dades d'aprenentatge a situacions no vistes d'una manera "raonable".

La tasca paral·lela en psicologia humana i animal sovint s'anomena aprenentatge conceptual.

Recomanat: