Mètode d'agrupació: descripció, conceptes bàsics, característiques de l'aplicació

Taula de continguts:

Mètode d'agrupació: descripció, conceptes bàsics, característiques de l'aplicació
Mètode d'agrupació: descripció, conceptes bàsics, característiques de l'aplicació
Anonim

El mètode d'agrupació és la tasca d'agrupar un conjunt d'objectes de tal manera que en un mateix grup siguin més semblants entre si que als objectes d' altres indústries. És la tasca principal de la mineria de dades i una tècnica d'anàlisi estadística general que s'utilitza en molts camps, com ara l'aprenentatge automàtic, el reconeixement de patrons, el reconeixement d'imatges, la recuperació d'informació, la compressió de dades i els gràfics per ordinador.

Problema d'optimització

utilitzant el mètode de clustering
utilitzant el mètode de clustering

El mètode d'agrupació en si mateix no és un algorisme específic, sinó una tasca general que s'ha de resoldre. Això es pot aconseguir amb diversos algorismes que difereixen significativament per entendre què constitueix un grup i com trobar-lo de manera eficient. L'ús del mètode de clustering per a la formació de metasubjectes inclou l'ús d'un grup ambpetites distàncies entre membres, regions denses de l'espai, intervals o determinades distribucions estadístiques. Per tant, l'agrupació es pot formular com un problema d'optimització multiobjectiu.

El mètode i la configuració de paràmetres adequats (inclosos elements com ara la funció de distància a utilitzar, el llindar de densitat o el nombre de clústers esperats) depenen del conjunt de dades individual i de l'ús previst dels resultats. L'anàlisi com a tal no és una tasca automàtica, sinó un procés iteratiu de descoberta de coneixement o d'optimització interactiva multiobjectiu. Aquest mètode d'agrupació inclou intents de prova i error. Sovint és necessari modificar els paràmetres del preprocessament de dades i del model fins que el resultat aconsegueix les propietats desitjades.

A més del terme "agrupament", hi ha una sèrie de paraules amb significats similars, com ara classificació automàtica, taxonomia numèrica, biologia i anàlisi tipològica. Les diferències subtils sovint es troben en l'ús del mètode d'agrupació per formar relacions de metasubjecte. Mentre que en l'extracció de dades els grups resultants són d'interès, en la classificació automàtica ja és el poder discriminatori qui realitza aquestes funcions.

L'anàlisi de conglomerats es va basar en nombrosos treballs de Kroeber el 1932. Va ser introduït a la psicologia per Zubin el 1938 i per Robert Tryon el 1939. I Cattell fa servir aquests treballs des de 1943 per indicar la classificació dels mètodes d'agrupació en teoria.

Terme

úsmètode
úsmètode

El concepte de "cluster" no es pot definir amb precisió. Aquesta és una de les raons per les quals hi ha tants mètodes d'agrupació. Hi ha un denominador comú: un grup d'objectes de dades. Tanmateix, diferents investigadors utilitzen models diferents. I cadascun d'aquests usos dels mètodes d'agrupació implica dades diferents. El concepte trobat per diversos algorismes difereix significativament en les seves propietats.

L'ús del mètode d'agrupació és la clau per entendre les diferències entre les instruccions. Els patrons de clúster típics inclouen:

  • Centroid s. Això és, per exemple, quan l'agrupació de k-means representa cada clúster amb un vector mitjà.
  • Model de connectivitat s. Es tracta, per exemple, d'un clustering jeràrquic, que crea models basats en la connectivitat a distància.
  • Model de distribució s. En aquest cas, els clústers es modelen mitjançant el mètode de agrupació per formar distribucions estadístiques de metasubjecte. Com ara la separació normal multivariant, que s'aplica a l'algorisme de maximització de l'expectativa.
  • Model de densitat s. Aquests són, per exemple, DBSCAN (Spatial Clustering Algorithm with Noise) i OPTICS (Order Points for Structure Detection), que defineixen els clústers com a regions denses connectades a l'espai de dades.
  • Model subespai c. En biclustering (també conegut com a co-clustering o dos modes), els grups es modelen amb els dos elements i amb els atributs adequats.
  • Model s. Alguns algorismes no ho fanrelació refinada pel seu mètode d'agrupació per generar resultats meta-matèries i simplement proporcionar agrupació d'informació.
  • Model basat en el gràfic s. Una camarilla, és a dir, un subconjunt de nodes, de manera que cada dues connexions a la part de la vora es pot considerar com un prototip de la forma del clúster. El debilitament de la demanda total es coneix com a quasi camarillas. Es presenta exactament el mateix nom a l'algorisme d'agrupació HCS.
  • Models neuronals s. La xarxa no supervisada més coneguda és el mapa d'autoorganització. I són aquests models els que normalment es poden caracteritzar com a similars a un o més dels mètodes d'agrupació anteriors per a la formació de resultats de metasubjecte. Inclou sistemes subespacials quan les xarxes neuronals implementen la forma necessària d'anàlisi de components principals o independents.

Aquest terme és, de fet, un conjunt d'aquests grups, que solen contenir tots els objectes del conjunt de mètodes d'agrupació de dades. A més, pot indicar la relació dels clústers entre si, com ara una jerarquia de sistemes integrats entre si. L'agrupació es pot dividir en els aspectes següents:

  • Mètode d'agrupació de centroides durs. Aquí, cada objecte pertany a un grup o està fora d'aquest.
  • Sistema suau o difuso. En aquest punt, cada objecte ja pertany en certa mesura a qualsevol clúster. També s'anomena mètode d'agrupació difusa de c-means.

I també són possibles diferències més subtils. Per exemple:

  • Clúster de particions estricte. Aquícada objecte pertany exactament a un grup.
  • Clúster de particions estrictes amb valors atípics. En aquest cas, els objectes també poden no pertànyer a cap clúster i ser considerats innecessaris.
  • Agrupació superposada (també alternativa, amb diverses visualitzacions). Aquí, els objectes poden pertànyer a més d'una branca. Normalment implica cúmuls sòlids.
  • Mètodes de agrupació jeràrquica. Els objectes que pertanyen a un grup fill també pertanyen al subsistema principal.
  • Formació del subespai. Tot i que semblant als grups superposats, dins d'un sistema definit de manera única, els grups mutus no s'han de solapar.

Instruccions

utilitzant el mètode de agrupació per formar
utilitzant el mètode de agrupació per formar

Com s'ha dit anteriorment, els algorismes d'agrupació es poden classificar segons el seu model de clúster. La revisió següent enumerarà només els exemples més destacats d'aquestes instruccions. Com que pot haver-hi més de 100 algorismes publicats, no tots proporcionen models per als seus clústers i, per tant, no es poden classificar fàcilment.

No hi ha cap algorisme de agrupació objectivament correcte. Però, com s'ha assenyalat anteriorment, la instrucció sempre està en el camp de visió de l'observador. Sovint s'ha d'escollir experimentalment l'algorisme de agrupació més adequat per a un problema particular, tret que hi hagi una raó matemàtica per preferir un model sobre un altre. Cal tenir en compte que normalment no funciona un algorisme dissenyat per a un sol tipusun conjunt de dades que conté un tema radicalment diferent. Per exemple, k-means no pot trobar grups no convexos.

Clúster basat en la connexió

mètode de agrupació
mètode de agrupació

Aquesta unió també es coneix pel seu nom, el model jeràrquic. Es basa en la idea típica que els objectes estan més connectats amb les parts veïnes que amb les que estan molt més lluny. Aquests algorismes connecten objectes, formant diferents clústers, en funció de la seva distància. Un grup es pot descriure principalment per la distància màxima que es necessita per connectar les diferents parts del clúster. A totes les distàncies possibles es formaran altres grups, que es poden representar mitjançant un dendrograma. Això explica d'on prové el nom comú "agrupació jeràrquica". És a dir, aquests algorismes no proporcionen una sola partició del conjunt de dades, sinó que proporcionen un ampli ordre d'autoritat. És gràcies a ell que hi ha un desguàs entre ells a determinades distàncies. En un dendrograma, l'eix y indica la distància a la qual s'uneixen els cúmuls. I els objectes estan disposats al llarg de la línia X de manera que els grups no es barregin.

La agrupació basada en la connexió és tota una família de mètodes que difereixen en la manera com calculen les distàncies. A més de l'elecció habitual de funcions de distància, l'usuari també ha de decidir el criteri de connexió. Com que un clúster consta de diversos objectes, hi ha moltes opcions per calcular-lo. Una opció popular es coneix com a agrupació d'una sola palanca, aquest és el mètodeenllaç complet, que conté UPGMA o WPGMA (conjunt no ponderat o ponderat de parells amb mitjana aritmètica, també conegut com a agrupació d'enllaços mitjans). A més, el sistema jeràrquic pot ser aglomeratiu (començant per elements individuals i combinant-los en grups) o dividint (començant amb un conjunt de dades complet i dividint-lo en seccions).

Clúster distribuït

mètode de agrupació per formar
mètode de agrupació per formar

Aquests models estan més estretament relacionats amb les estadístiques que es basen en divisions. Els clústers es poden definir fàcilment com a objectes que probablement pertanyen a la mateixa distribució. Una característica útil d'aquest enfocament és que és molt semblant a la manera com es creen conjunts de dades artificials. Mostrant objectes aleatoris d'una distribució.

Si bé la base teòrica d'aquests mètodes és excel·lent, pateixen un problema clau, conegut com a sobreajust, tret que s'imposen límits a la complexitat del model. Una associació més gran normalment explicarà millor les dades, cosa que dificultarà triar el mètode correcte.

Model de barreja gaussiana

Aquest mètode utilitza tot tipus d'algorismes de maximització d'expectatives. Aquí, el conjunt de dades normalment es modela amb un nombre fix (per evitar l'anul·lació) de distribucions gaussianes que s'inicien aleatòriament i els paràmetres de les quals s'optimitzen iterativament per adaptar-se millor al conjunt de dades. Aquest sistema convergirà cap a un òptim local. És per això que diverses curses poden donarresultats diferents. Per obtenir l'agrupament més ajustat, les característiques sovint s'assignen a la distribució gaussiana a la qual és més probable que pertanyin. I per als grups més suaus, això no és necessari.

La agrupació basada en la distribució crea models complexos que, finalment, poden capturar la correlació i la dependència entre els atributs. Tanmateix, aquests algorismes imposen una càrrega addicional a l'usuari. Per a molts conjunts de dades del món real, pot ser que no hi hagi un model matemàtic definit de manera concisa (per exemple, suposant que una distribució gaussiana és una hipòtesi força forta).

Agrupació basada en la densitat

agrupació per formar
agrupació per formar

En aquest exemple, els grups es defineixen bàsicament com a àrees amb major impermeabilitat que la resta del conjunt de dades. Els objectes d'aquestes parts rares, que són necessaris per separar tots els components, solen considerar-se punts de soroll i de vora.

El mètode d'agrupació basat en la densitat més popular és DBSCAN (algoritme de agrupació de soroll espacial). A diferència de molts mètodes més nous, té un component de clúster ben definit anomenat "accessibilitat de densitat". De manera semblant a la agrupació basada en enllaços, es basa en punts de connexió dins de determinats llindars de distància. Tanmateix, aquest mètode només recull aquells elements que compleixen el criteri de densitat. A la versió original, definida com el nombre mínim d' altres objectes en aquest radi, el clúster està format per totsElements relacionats amb la densitat (que poden formar un grup de forma lliure, a diferència de molts altres mètodes) i tots els objectes que es troben dins de l'interval permès.

Una altra propietat interessant de DBSCAN és que la seva complexitat és bastant baixa: requereix un nombre lineal de consultes d'interval a la base de dades. I també és inusual que trobarà essencialment els mateixos resultats (això és determinista per als punts centrals i de soroll, però no per als elements de límit) a cada execució. Per tant, no cal executar-lo diverses vegades.

El principal desavantatge de DBSCAN i OPTICS és que esperen una certa caiguda de la densitat per detectar els límits del clúster. Per exemple, en conjunts de dades amb distribucions gaussianes superposades (un cas d'ús comú per als objectes artificials), els límits del clúster generats per aquests algorismes sovint semblen arbitraris. Això passa perquè la densitat de grups disminueix contínuament. I en un conjunt de dades de barreja gaussiana, aquests algorismes gairebé sempre superen els mètodes com ara l'agrupació EM, que són capaços de modelar amb precisió aquest tipus de sistemes.

El desplaçament mitjà és un enfocament d'agrupació en què cada objecte es mou a l'àrea més densa del barri basat en una estimació de tot el nucli. Al final, els objectes convergeixen als màxims d'impenetrabilitat local. De manera similar a la agrupació de k-means, aquests "atractors de densitat" poden servir com a representants d'un conjunt de dades. Però el canvi mitjàpot detectar clústers de forma arbitrària semblants a DBSCAN. A causa del costós procediment iteratiu i l'estimació de la densitat, el desplaçament mitjà sol ser més lent que DBSCAN o k-Means. A més, l'aplicabilitat de l'algoritme de desplaçament típic a les dades d' alta dimensió és difícil a causa del comportament no uniforme de l'estimació de la densitat del nucli, que condueix a una fragmentació excessiva de les cues del clúster.

Valoració

mètode d'agrupació per a la formació de metasubjecte
mètode d'agrupació per a la formació de metasubjecte

Verificar els resultats de l'agrupació és tan difícil com l'agrupació en si mateixa. Els enfocaments populars inclouen la puntuació "interna" (on el sistema es redueix a una única mesura de qualitat) i, per descomptat, la puntuació "externa" (on l'agrupació es compara amb una classificació existent de "veritat bàsica"). I la puntuació manual de l'expert humà i la puntuació indirecta es troben examinant la utilitat de l'agrupació en l'aplicació prevista.

Les mesures de bandera internes pateixen el problema que representen característiques que es poden considerar objectius d'agrupació. Per exemple, és possible agrupar les dades donades pel coeficient Silhouette, excepte que no es coneix cap algorisme eficient per fer-ho. Utilitzant aquesta mesura interna per a l'avaluació, és millor comparar la similitud dels problemes d'optimització.

La marca exterior té problemes similars. Si hi ha aquestes etiquetes de "veritat bàsica", no cal agrupar. I en aplicacions pràctiques, normalment no hi ha aquests conceptes. D' altra banda, les etiquetes reflecteixen només una possible partició del conjunt de dades, la qual cosa no vol dirque no hi ha cap altra agrupació (potser encara millor).

Per tant, cap d'aquests enfocaments pot jutjar la qualitat real. Però això requereix una avaluació humana, que és molt subjectiva. No obstant això, aquestes estadístiques poden ser informatives per identificar clústers dolents. Però no s'ha de descartar l'avaluació subjectiva d'una persona.

Marca interior

Quan el resultat d'una agrupació s'avalua en funció de les dades que s'han agrupat, s'anomena aquest terme. Aquests mètodes generalment assignen el millor resultat a un algorisme que crea grups amb una gran similitud dins i baixa entre grups. Un dels desavantatges d'utilitzar criteris interns en l'avaluació de clústers és que les puntuacions altes no condueixen necessàriament a aplicacions efectives de recuperació d'informació. A més, aquesta puntuació està esbiaixada cap a algorismes que utilitzen el mateix model. Per exemple, l'agrupació de k-means optimitza de manera natural les distàncies de les característiques, i un criteri intern basat en ella és probable que sobreestimi l'agrupació resultant.

Per tant, aquestes mesures d'avaluació són les més adequades per fer-se una idea de les situacions en què un algorisme funciona millor que un altre. Però això no vol dir que cada informació doni resultats més fiables que altres. El període de validesa mesurat per aquest índex depèn de l'afirmació que l'estructura existeix al conjunt de dades. Un algorisme desenvolupat per a alguns tipus no té cap possibilitat si el conjunt conté radicalmentcomposició diferent o si l'avaluació mesura criteris diferents. Per exemple, la agrupació k-means només pot trobar clústers convexos, i molts índexs de puntuació assumeixen el mateix format. En un conjunt de dades amb models no convexos, no és apropiat utilitzar k-means i criteris d'avaluació típics.

Avaluació externa

Amb aquest tipus d'agrupament, els resultats de l'agrupació s'avaluen a partir de dades que no s'han utilitzat per agrupar. És a dir, com ara etiquetes de classe conegudes i proves externes. Aquestes preguntes consisteixen en un conjunt d'ítems preclassificats i sovint són creades per experts (humans). Com a tal, els kits de referència es poden veure com l'estàndard d'or per a l'avaluació. Aquest tipus de mètodes de puntuació mesuren fins a quin punt està l'agrupació de classes de referència donades. Tanmateix, recentment s'ha discutit si això és adequat per a dades reals o només per a conjunts sintètics amb veritat real. Atès que les classes poden contenir estructura interna i els atributs existents poden no permetre la separació de clústers. A més, des del punt de vista del descobriment del coneixement, la reproducció de fets coneguts pot no produir necessàriament el resultat esperat. En un escenari especial d'agrupament restringit on la metainformació (com ara les etiquetes de classe) ja s'utilitza en el procés d'agrupació, no és trivial conservar tota la informació amb finalitats d'avaluació.

Ara queda clar què no s'aplica als mètodes d'agrupació i quins models s'utilitzen per a aquests propòsits.

Recomanat: