Les hipòtesis incorporades al modelatge estadístic descriuen un conjunt de distribucions de probabilitat, algunes de les quals se suposa que aproximen adequadament la distribució. Es selecciona un conjunt específic de dades de la definició. Les distribucions de probabilitat inherents al modelatge estadístic són les que distingeixen els models estadístics d' altres models matemàtics no estadístics.
Connexió amb les matemàtiques
Aquest mètode científic es basa principalment en les matemàtiques. El modelatge estadístic de sistemes sol donar-se per equacions matemàtiques que relacionen una o més variables aleatòries i possiblement altres variables no aleatòries. Per tant, un model estadístic és una "representació formal d'una teoria" (Hermann Ader, citant Kenneth Bollen).
Totes les proves d'hipòtesis estadístiques i totes les estimacions estadístiques es deriven de models estadístics. De manera més general, els models estadístics formen part de la base de la inferència estadística.
Mètodes estadísticsmodelatge
De manera informal, un model estadístic es pot pensar com una hipòtesi estadística (o conjunt d'hipòtesis estadístiques) amb una propietat determinada: aquesta hipòtesi ens permet calcular la probabilitat de qualsevol esdeveniment. Com a exemple, considereu un parell de daus ordinaris de sis cares. Estudiarem dues hipòtesis estadístiques diferents sobre l'os.
La primera hipòtesi estadística constitueix el model estadístic, perquè amb una sola hipòtesi podem calcular la probabilitat de qualsevol esdeveniment. La hipòtesi estadística alternativa no constitueix un model estadístic, perquè amb una sola hipòtesi no podem calcular la probabilitat de cada esdeveniment.
A l'exemple anterior amb la primera hipòtesi, és fàcil calcular la probabilitat d'un esdeveniment. Tanmateix, en alguns altres exemples, el càlcul pot ser complex o fins i tot poc pràctic (per exemple, pot requerir milions d'anys de càlcul). Per al supòsit que constitueix un model estadístic, aquesta dificultat és acceptable: realitzar el càlcul no ha de ser pràcticament factible, només teòricament possible.
Exemples de models
Suposem que tenim una població d'escolars amb nens distribuïts de manera uniforme. L'alçada d'un nen estarà relacionada estocàsticament amb l'edat: per exemple, quan sabem que un nen té 7 anys, això afecta la probabilitat que el nen faci 5 peus d'alçada (uns 152 cm). Podríem formalitzar aquesta relació en un model de regressió lineal, per exemple: creixement=b0 + b1agei+ εi, on b0 és la intersecció, b1 és el paràmetre pel qual es multiplica l'edat en obtenir la previsió de creixement, εi és el terme d'error. Això implica que l'alçada es prediu per l'edat amb algun error.
Un model vàlid ha de coincidir amb tots els punts de dades. Per tant, una línia recta (heighti=b0 + b1agei) no pot ser una equació per a un model de dades, tret que s'ajusti exactament a tots els punts de dades, és a dir, tots els punts de dades es troben perfectament a la línia. El terme d'error εi s'ha d'incloure a l'equació perquè el model s'ajusti a tots els punts de dades.
Per fer una inferència estadística, primer hem d'assumir algunes distribucions de probabilitat per a εi. Per exemple, podem suposar que les distribucions de εi són gaussianes, amb mitjana zero. En aquest cas, el model tindrà 3 paràmetres: b0, b1 i la variància de la distribució gaussiana.
Descripció general
Un model estadístic és una classe especial de models matemàtics. El que distingeix un model estadístic d' altres models matemàtics és que no és determinista. S'utilitza per modelar dades estadístiques. Així, en un model estadístic definit amb equacions matemàtiques, algunes variables no tenen valors específics, sinó que tenen distribucions de probabilitat; és a dir, algunes variables són estocàstiques. A l'exemple anterior, ε és una variable estocàstica; sense aquesta variable, el model eraseria determinista.
Els models estadístics s'utilitzen sovint en l'anàlisi i el modelatge estadístics, fins i tot si el procés físic que s'està modelant és determinista. Per exemple, llançar monedes és en principi un procés determinista; però normalment es modela com a estocàstic (mitjançant un procés de Bernoulli).
Models paramètrics
Els models paramètrics són els models estadístics més utilitzats. Pel que fa als models semi-paramètrics i no paramètrics, Sir David Cox va dir: "En general, inclouen menys supòsits sobre l'estructura i la forma de la distribució, però normalment contenen supòsits d'independència forts". Com tots els altres models esmentats, també s'utilitzen sovint en el mètode estadístic de modelització matemàtica.
Models multinivell
Els models multinivell (també coneguts com a models lineals jeràrquics, models de dades imbricades, models mixts, coeficients aleatoris, models d'efectes aleatoris, models de paràmetres aleatoris o models particionats) són models de paràmetres estadístics que varien en més d'un nivell. Un exemple és un model de rendiment dels estudiants que conté mètriques per a estudiants individuals, així com mètriques per a les aules en què s'agrupen els estudiants. Aquests models es poden considerar generalitzacions de models lineals (en particular, regressió lineal), encara que també es poden estendre a models no lineals. Aquests models s'han convertitmolt més popular quan es va disposar de prou potència informàtica i programari.
Els models multinivell són especialment adequats per a projectes de recerca on les dades dels participants s'organitzen a més d'un nivell (és a dir, dades imbricades). Les unitats d'anàlisi solen ser individus (a un nivell inferior) que estan imbricats dins d'unitats de context/agregats (a un nivell superior). Tot i que el nivell més baix de dades en models multinivell sol ser individual, també es poden considerar mesures repetides d'individus. Així, els models multinivells proporcionen un tipus alternatiu d'anàlisi per a l'anàlisi de mesures repetides univariants o multivariants. Es poden considerar diferències individuals en les corbes de creixement. A més, els models multinivell es poden utilitzar com a alternativa a ANCOVA, on les puntuacions de les variables dependents s'ajusten per a les covariables (per exemple, diferències individuals) abans de provar les diferències de tractament. Els models multinivells són capaços d'analitzar aquests experiments sense assumir pendents de regressió uniformes requerits per ANCOVA.
Els models multinivell es poden utilitzar per a dades amb molts nivells, tot i que els models de dos nivells són els més habituals i la resta d'aquest article se centra en aquests. La variable dependent s'ha d'examinar al nivell més baix d'anàlisi.
Selecció del model
Selecció del modelés la tasca de seleccionar d'un conjunt de models candidats donades les dades, realitzat en el marc de la modelització estadística. En els casos més senzills, es considera un conjunt de dades ja existent. Tanmateix, la tasca també pot implicar dissenyar experiments perquè les dades recollides s'adaptin bé a la tasca de selecció del model. Tenint en compte els models candidats amb un poder predictiu o explicatiu similar, és probable que el model més senzill sigui la millor opció (la navalla d'Occam).
Konishi & Kitagawa diu: "La majoria dels problemes d'inferència estadística es poden considerar problemes relacionats amb el modelatge estadístic". De la mateixa manera, Cox va dir: "Com es fa la traducció de la matèria al model estadístic és sovint la part més important de l'anàlisi".
La selecció de models també pot referir-se al problema de seleccionar uns quants models representatius d'un gran conjunt de models computacionals amb finalitats de decisió o d'optimització en condicions d'incertesa.
Patrons gràfics
El model gràfic, o model gràfic probabilístic, (PGM) o model probabilístic estructurat, és un model probabilístic pel qual el gràfic expressa l'estructura d'una relació condicional entre variables aleatòries. S'utilitzen habitualment en la teoria de la probabilitat, l'estadística (especialment l'estadística bayesiana) i l'aprenentatge automàtic.
Models economètrics
Els models economètrics són models estadístics que s'utilitzeneconometria. Un model economètric defineix les relacions estadístiques que es creu que existeixen entre diverses magnituds econòmiques relacionades amb un fenomen econòmic determinat. Un model economètric es pot derivar d'un model econòmic determinista que té en compte la incertesa, o d'un model econòmic que és en si mateix estocàstic. Tanmateix, també és possible utilitzar models economètrics que no estan lligats a cap teoria econòmica concreta.