Escalament multidimensional: definició, metes, objectius i exemple

2026 Autora: Angel Austin | [email protected]. Última modificació: 2025-01-23 12:21:15

L'escala multivariada (MDS) és una eina per visualitzar el nivell de semblança de casos individuals en un conjunt de dades. Es refereix a un conjunt de mètodes d'ordenació relacionats utilitzats en la visualització de la informació, en particular per mostrar la informació continguda en una matriu de distància. Aquesta és una forma de reducció de dimensionalitat no lineal. L'algorisme MDS pretén col·locar cada objecte en un espai N-dimensional de manera que les distàncies entre objectes es preservin de la millor manera possible. A continuació, s'assignen coordenades a cada objecte en cadascuna de les N dimensions.

El nombre de dimensions del gràfic MDS pot superar les 2 i s'especifica a priori. La selecció de N=2 optimitza la col·locació d'objectes per al diagrama de dispersió 2D. Podeu veure exemples d'escala multidimensional a les imatges de l'article. Els exemples amb símbols en rus són especialment il·lustratius.

Essència

Mètode d'escalat multidimensional (MMS,MDS) és un conjunt estès d'eines clàssiques que generalitza el procediment d'optimització per a un conjunt de funcions de pèrdua i matrius d'entrada de distàncies conegudes amb pesos, etc. En aquest context, una funció de pèrdua útil s'anomena estrès, que sovint es minimitza mitjançant un procediment anomenat majorització de tensió.

Manual

Hi ha diverses opcions per a l'escalat multidimensional. Els programes MDS minimitzen automàticament la càrrega per obtenir una solució. El nucli de l'algorisme MDS no mètric és un procés d'optimització doble. En primer lloc, cal trobar la transformació de proximitat monòtona òptima. En segon lloc, els punts de configuració s'han d'ubicar de manera òptima perquè les seves distàncies coincideixin amb els valors de proximitat escalats el més a prop possible.

Expansió

Una extensió de l'escala multidimensional mètrica en estadístiques on l'espai objectiu és un espai llis no euclidià arbitrari. On les diferències són distàncies en una superfície i l'espai objectiu és una superfície diferent. Els programes temàtics us permeten trobar un fitxer adjunt amb una distorsió mínima d'una superfície a una altra.

Pasos

Hi ha diversos passos per dur a terme un estudi amb escala multivariant:

Formulació del problema. Quines variables voleu comparar? Quantes variables voleu comparar? Amb quina finalitat s'utilitzarà l'estudi?
Obtenció de dades d'entrada. Als enquestats se'ls fa una sèrie de preguntes. Per a cada parell de productes, se'ls demana que valoren la similitud (normalment en una escala Likert de 7 punts de molt semblant a molt diferent). La primera pregunta podria ser per a Coca-Cola/Pepsi, per exemple, la següent per a la cervesa, la següent per a Dr. Pepper, etc. El nombre de preguntes depèn del nombre de marques.

Enfocaments alternatius

Hi ha altres dos enfocaments. Hi ha una tècnica anomenada "Perceptual Data: Derived Approach" en la qual els productes es descomponen en atributs i l'avaluació es fa a escala diferencial semàntica. Un altre mètode és l'"enfocament de dades de preferències", en què els enquestats se'ls pregunta sobre les preferències en lloc de les similituds.

Consisteix en els passos següents:

Llançament del programa estadístic MDS. El programari per dur a terme el procediment està disponible en molts paquets de programari estadístic. Sovint es pot triar entre MDS mètric (que s'ocupa de dades d'interval o nivell de proporció) i MDS no mètric (que tracta de dades ordinals).
Determinació del nombre de mesures. L'investigador ha de determinar el nombre de mesures que vol crear a l'ordinador. Com més mesures, millor serà l'ajust estadístic, però més difícil serà interpretar els resultats.
Mostra els resultats i defineix les mesures: el programa estadístic (o el mòdul relacionat) mostrarà els resultats. El mapa mostrarà cada producte (normalment en 2D).espai). La proximitat dels productes entre si indica la seva similitud o preferència, depenent de l'enfocament utilitzat. Tanmateix, com les mesures es corresponen realment amb les mesures del comportament del sistema no sempre està clara. Aquí es pot fer un judici subjectiu de conformitat.
Comproveu la fiabilitat i la validesa dels resultats: calculeu R-quadrat per determinar la proporció de la variància de les dades a escala que es pot explicar amb el procediment MDS. El quadrat R 0,6 es considera el nivell mínim acceptable. R quadrat 0,8 es considera bo per a l'escala mètrica, mentre que 0,9 es considera bo per a escala no mètrica.

Diverses proves

Altres proves possibles són les proves d'esforç de tipus Kruskal, les proves de dades dividides, les proves d'estabilitat de les dades i les proves de fiabilitat de nova prova. Escriu detalladament els resultats de la prova. Juntament amb el mapeig, s'hauria d'especificar almenys una mesura de distància (per exemple, índex Sorenson, índex Jaccard) i fiabilitat (per exemple, valor de tensió).

També és molt desitjable donar un algorisme (per exemple, Kruskal, Mather) que sovint ve determinat pel programa utilitzat (de vegades substituint l'informe de l'algorisme), si heu donat una configuració inicial o heu tingut una elecció aleatòria, nombre d'execucions de dimensions, resultats de Montecarlo, nombre d'iteracions, puntuació d'estabilitat i variància proporcional de cada eix (r-quadrat).

Mètode d'anàlisi de dades i informació visualescala multidimensional

La visualització de la informació és l'estudi de representacions interactives (visuals) de dades abstractes per millorar la cognició humana. Les dades abstractes inclouen dades numèriques i no numèriques, com ara informació textual i geogràfica. Tanmateix, la visualització de la informació difereix de la visualització científica: "és informativa (visualització de la informació) quan s'escull una representació espacial, i scivis (visualització científica) quan es dóna una representació espacial."

El camp de la visualització de la informació va sorgir de la investigació en la interacció home-ordinador, aplicacions de la informàtica, gràfics, disseny visual, psicologia i mètodes empresarials. S'utilitza cada cop més com a component essencial en la investigació científica, biblioteques digitals, mineria de dades, dades financeres, investigació de mercats, control de producció, etc.

Mètodes i principis

La visualització de la informació suggereix que els mètodes de visualització i interacció aprofiten la riquesa de la percepció humana, permetent als usuaris veure, explorar i comprendre simultàniament grans quantitats d'informació. La visualització de la informació té com a objectiu crear enfocaments per comunicar dades abstractes, informació d'una manera intuïtiva.

L'anàlisi de dades és una part integral de tota la investigació aplicada i la resolució de problemes a la indústria. La majoriaEls enfocaments fonamentals per a l'anàlisi de dades són la visualització (histogrames, gràfics de dispersió, gràfics de superfície, mapes d'arbres, gràfics de coordenades paral·leles, etc.), l'estadística (prova d'hipòtesis, regressió, PCA, etc.), l'anàlisi de dades (matching, etc.)..d.) i mètodes d'aprenentatge automàtic (agrupament, classificació, arbres de decisió, etc.).

D'entre aquests enfocaments, la visualització de la informació o l'anàlisi de dades visuals depèn més de les habilitats cognitives del personal analític i permet el descobriment de coneixements accionables no estructurats que només estan limitats per la imaginació i la creativitat humanes. Un analista no necessita aprendre cap tècnica complexa per poder interpretar visualitzacions de dades. La visualització d'informació també és un esquema de generació d'hipòtesis que pot anar acompanyat, i normalment, d'anàlisis més analítiques o formals, com ara la prova d'hipòtesis estadístiques.

Estudi

L'estudi modern de la visualització va començar amb els gràfics per ordinador, que "des del principi es van utilitzar per estudiar problemes científics. Tanmateix, en els primers anys, la manca de poder gràfic sovint limitava la seva utilitat. Va començar la prioritat de la visualització. a desenvolupar-se l'any 1987, amb el llançament d'un programari especial per a gràfics per ordinador i visualització en informàtica científica. Des de llavors, hi ha hagut diverses conferències i tallers organitzats conjuntament per la IEEE Computer Society i ACM SIGGRAPH".

Van tractar els temes generals de visualització de dades, visualització de la informació i visualització científica,així com àrees més específiques, com ara la representació del volum.

Resum

L'escala multidimensional generalitzada (GMDS) és una extensió de l'escala multidimensional mètrica en la qual l'espai objectiu no és euclidià. Quan les diferències són distàncies en una superfície i l'espai objectiu és una altra superfície, GMDS us permet trobar l'encaix d'una superfície a una altra amb una distorsió mínima.

GMDS és una nova línia de recerca. Actualment, les principals aplicacions són el reconeixement d'objectes deformables (per exemple, per al reconeixement facial en 3D) i el mapeig de textures.

El propòsit de l'escala multidimensional és representar dades multidimensionals. Les dades multidimensionals, és a dir, les dades que requereixen més de dues o tres dimensions per representar-se, poden ser difícils d'interpretar. Una aproximació a la simplificació és suposar que les dades d'interès es troben en una varietat no lineal incrustada en un espai d' alta dimensió. Si el col·lector té una dimensió prou baixa, les dades es poden visualitzar en un espai de dimensions baixes.

Molts dels mètodes de reducció de dimensionalitat no lineal estan relacionats amb mètodes lineals. Els mètodes no lineals es poden classificar a grans trets en dos grups: els que proporcionen mapes (des de l'espai d' alta dimensió fins a la incrustació de dimensions baixes, o viceversa) i els que simplement proporcionen visualització. En el context de l'aprenentatge automàtic, els mètodes de mapeig es poden veure comuna etapa preliminar d'extracció de característiques, després de la qual s'apliquen algorismes de reconeixement de patrons. Normalment, els que només donen visualitzacions es basen en dades de proximitat, és a dir, mesures de distància. L'escala multidimensional també és força comú en psicologia i altres humanitats.

Si el nombre d'atributs és gran, l'espai de cadenes possibles úniques també és exponencialment gran. Així, com més gran és la dimensió, més difícil es fa representar l'espai. Això provoca molts problemes. Els algorismes que funcionen amb dades d' alta dimensió tendeixen a tenir una complexitat temporal molt elevada. Reduir les dades a menys dimensions sovint fa que els algorismes d'anàlisi siguin més eficients i pot ajudar els algorismes d'aprenentatge automàtic a fer prediccions més precises. És per això que l'escalat de dades multidimensionals és tan popular.