Informació estadística: recollida, tractament, anàlisi

Taula de continguts:

Informació estadística: recollida, tractament, anàlisi
Informació estadística: recollida, tractament, anàlisi
Anonim

Al llarg de la història de l'estadística, s'han fet diversos intents per crear una taxonomia de nivells de mesura. El psicofísic Stanley Smith Stevens va definir escales nominals, ordinals, d'interval i proporcionals.

Les mesures nominals no tenen un ordre significatiu de classificació entre els valors i permeten qualsevol conversió d'un a un.

Les dimensions regulars tenen diferències inexactes entre els valors consecutius, però tenen un ordre específic d'aquests valors i permeten qualsevol transformació per preservar l'ordre.

Les mesures d'interval tenen distàncies significatives entre punts, però el valor zero és arbitrari (com en el cas de les mesures de longitud i temperatura en Celsius o Fahrenheit) i permet qualsevol transformació lineal.

Les dimensions de la relaciótenen un valor zero significatiu i distàncies entre diferents dimensions, i permeten qualsevol transformació d'escala.

Image
Image

Variables i classificació de la informació

Perquè les variablescorresponents només a mesures nominals o ordinals no es poden mesurar raonablement numèricament, i de vegades s'agrupen com a variables categòriques. Les mesures de relació i interval s'agrupen com a variables quantitatives, que poden ser discretes o contínues a causa de la seva naturalesa numèrica. Aquestes distincions solen estar poc relacionades amb el tipus de dades en informàtica, ja que les variables categòriques dicotòmiques es poden representar mitjançant valors booleans, variables categòriques politòmiques amb nombres enters arbitraris en un tipus de dades integral i variables contínues amb components reals que impliquen càlcul de coma flotant. Però la visualització dels tipus de dades d'informació estadística depèn de la classificació que s'apliqui.

Informació estadística dels treballadors
Informació estadística dels treballadors

Altres classificacions

També s'han creat altres classificacions de dades estadístiques (informació). Per exemple, Mosteller i Tukey van distingir entre qualificacions, rangs, accions comptades, recomptes, quantitats i saldos. Nelder va descriure en un moment els recomptes continus, les proporcions contínues, la correlació de recomptes i les maneres categòriques de comunicar dades. Tots aquests mètodes de classificació s'utilitzen en la recopilació d'informació estadística.

Problemes

La qüestió de si és adequat aplicar diferents tipus de mètodes estadístics a les dades obtingudes mitjançant diferents procediments de mesura (recollida) es complica per problemes relacionats amb la conversió de variables i la interpretació precisa de preguntesrecerca. La relació entre les dades i el que descriuen simplement reflecteix el fet que certs tipus d'enunciats estadístics poden tenir valors de veritat que no són invariants sota determinades transformacions. Si val la pena considerar la transformació depèn de la pregunta que intenteu respondre.

Un exemple d'informació estadística
Un exemple d'informació estadística

Què és un tipus de dades

El tipus de dades és un component fonamental del contingut semàntic d'una variable i controla quins tipus de distribucions de probabilitat es poden utilitzar lògicament per descriure la variable, les operacions permeses sobre ella, el tipus d'anàlisi de regressió utilitzat per predir-la., etc. El concepte de tipus de dades és similar al concepte de nivell de mesura, però més específic; per exemple, els recomptes de dades requereixen una distribució diferent (Poisson o binomi) que per als valors reals no negatius, però tots dos cauen en el mateix nivell de mesura (escala de coeficients).

Informació estadística dels jutges
Informació estadística dels jutges

Escales

S'han fet diversos intents per crear una taxonomia de nivells de mesura per processar informació estadística. El psicofísic Stanley Smith Stevens va definir escales nominals, ordinals, d'interval i proporcionals. Les mesures nominals no tenen un ordre significatiu de rangs entre els valors i permeten qualsevol conversió un a un. Les mesures ordinàries tenen diferències imprecises entre els valors successius, però difereixen en l'ordre significatiu d'aquests valors i permetenqualsevol transformació que preservi l'ordre. Les mesures d'interval tenen distàncies significatives entre mesures, però el valor zero és arbitrari (com en el cas de les mesures de longitud i temperatura en Celsius o Fahrenheit) i permet qualsevol transformació lineal. Les dimensions de la relació tenen un valor zero significatiu i distàncies entre diferents dimensions definides, i permeten qualsevol transformació d'escala.

Model de diagrama
Model de diagrama

Les dades que no es poden descriure amb un sol nombre s'inclouen sovint en vectors aleatoris de variables aleatòries reals, tot i que hi ha una tendència creixent a processar-les tu mateix. Aquests exemples es comentaran a continuació.

Vectors aleatoris

Els elements individuals poden estar o no relacionats. Exemples de distribucions utilitzades per descriure vectors aleatoris correlacionats són la distribució normal multivariant i la distribució t multivariada. En general, hi pot haver correlacions arbitràries entre qualsevol element, però això sovint esdevé inmanejable per sobre d'una mida determinada, i requereixen restriccions addicionals als components correlacionats.

atributs estadístics
atributs estadístics

matrius aleatòries

Les matrius aleatòries es poden disposar linealment i tractar-se com a vectors aleatoris, però pot ser que aquesta no sigui una manera eficient de representar correlacions entre diferents elements. Algunes distribucions de probabilitat estan dissenyades específicament per a matrius aleatòries, com ara la matriu normaldistribució i distribució Wishart.

Seqüències aleatòries

De vegades es consideren el mateix que vectors aleatoris, però en altres casos el terme s'aplica específicament als casos en què cada variable aleatòria es correlaciona només amb variables properes (com en un model de Markov). Aquest és un cas especial de la xarxa bayesiana i s'utilitza per a seqüències molt llargues, com ara cadenes de gens o documents de text llargs. Hi ha diversos models dissenyats especialment per a aquestes seqüències, com ara seqüències de Markov amagades.

Gràfic típic
Gràfic típic

Processos aleatoris

Són semblants a les seqüències aleatòries, però només quan la longitud de la seqüència és indefinida o infinita i els elements de la seqüència es processen un per un. Sovint s'utilitza per a dades que es poden descriure com a sèries temporals. Això és cert quan es tracta, per exemple, del preu de les accions del dia següent.

Conclusió

L'anàlisi de la informació estadística depèn completament de la qualitat de la seva recollida. Aquest últim, al seu torn, està molt relacionat amb les possibilitats de la seva classificació. Per descomptat, hi ha molts tipus de classificació de la informació estadística, que el lector podria veure per si mateix en llegir aquest article. No obstant això, la presència d'eines efectives i un bon domini de les matemàtiques, així com els coneixements en l'àmbit de la sociologia, faran la seva feina, permetent realitzar qualsevol enquesta o estudi sense correccions significatives d'error. Fonts d'informació estadística en el formularipersones, organitzacions i altres temes de sociologia, afortunadament, estan representats en gran abundància. I cap dificultat pot impedir un veritable explorador.

Recomanat: