Un model estadístic és una projecció matemàtica que incorpora un conjunt de supòsits diferents sobre la generació d'algunes dades de mostra. El terme sovint es presenta en una forma molt idealitzada.
Les hipòtesis expressades en el model estadístic mostren un conjunt de distribucions de probabilitat. Molts dels quals tenen la intenció d'aproximar correctament la distribució de la qual s'extreu un conjunt concret d'informació. Les distribucions de probabilitat inherents als models estadístics són les que distingeixen la projecció d' altres modificacions matemàtiques.
Projecció general
El model matemàtic és una descripció del sistema utilitzant determinats conceptes i llenguatge. S'apliquen a les ciències naturals (com la física, la biologia, les ciències de la terra, la química) i les disciplines de l'enginyeria (com la informàtica, l'enginyeria elèctrica), així com les ciències socials (com l'economia, la psicologia, la sociologia, les ciències polítiques).
El model pot ajudar a explicar el sistema iestudiar la influència de diversos components i fer prediccions de comportament.
Els models matemàtics poden adoptar moltes formes, com ara sistemes dinàmics, projeccions estadístiques, equacions diferencials o paràmetres teòrics de jocs. Aquests i altres tipus es poden solapar, i aquest model inclou moltes estructures abstractes. En general, les projeccions matemàtiques també poden incloure components lògics. En molts casos, la qualitat d'un camp científic depèn de com els models matemàtics desenvolupats teòricament coincideixen amb els resultats d'experiments repetits. La manca d'acord entre els processos teòrics i les mesures experimentals sovint condueix a avenços importants a mesura que es desenvolupen millors teories.
A les ciències físiques, el model matemàtic tradicional conté un gran nombre dels elements següents:
- Equacions de control.
- Submodels addicionals.
- Definir equacions.
- Equacions constituents.
- Hposicions i limitacions.
- Condicions inicials i de límit.
- Restriccions clàssiques i equacions cinemàtiques.
Fórmula
Un model estadístic, per regla general, s'estableix mitjançant equacions matemàtiques que combinen una o més variables aleatòries i, possiblement, altres variables naturals. De la mateixa manera, la projecció es considera "el concepte formal d'un concepte".
Totes les proves d'hipòtesis estadístiques i avaluacions estadístiques s'obtenen a partir de models matemàtics.
Introducció
De manera informal, un model estadístic es pot veure com una hipòtesi (o conjunt d'hipòtesis) amb una propietat específica: permet calcular la probabilitat de qualsevol esdeveniment. Com a exemple, considereu un parell de daus ordinaris de sis cares. S'han d'explorar dues hipòtesis estadístiques diferents sobre l'os.
La primera hipòtesi és:
Per a cadascun dels daus, la probabilitat d'obtenir un dels números (1, 2, 3, 4, 5 i 6) és: 1/6.
A partir d'aquesta suposició, podem calcular la probabilitat dels dos daus: 1:1/6×1/6=1/36.
De manera més general, podeu calcular la probabilitat de qualsevol esdeveniment. Tanmateix, s'ha d'entendre que és impossible calcular la probabilitat de cap altre esdeveniment no trivial.
Només la primera opinió recull un model matemàtic estadístic: pel fet que amb només una hipòtesi és possible determinar la probabilitat de cada acció.
A la mostra anterior amb permís inicial, és fàcil determinar la possibilitat d'un esdeveniment. Amb alguns altres exemples, el càlcul pot ser difícil o fins i tot poc realista (per exemple, pot requerir molts anys de càlculs). Per a una persona que dissenya un model d'anàlisi estadística, aquesta complexitat es considera inacceptable: la implementació de càlculs no hauria de ser pràcticament impossible i teòricament impossible.
Definició formal
En termes matemàtics, el model estadístic d'un sistema sol ser considerat com un parell (S, P), on S ésel conjunt de possibles observacions, és a dir, l'espai mostral, i P és el conjunt de distribucions de probabilitat a S.
La intuïció d'aquesta definició és la següent. Se suposa que hi ha una distribució de probabilitat "vertadera" causada pel procés que genera determinades dades.
Conjunt
És ell qui determina els paràmetres del model. La parametrització generalment requereix valors diferents per donar lloc a diferents distribucions, és a dir,
ha de mantenir (és a dir, ha de ser injectiu). Es diu que una parametrització que compleixi el requisit és identificable.
Exemple
Suposem que hi ha un cert nombre d'estudiants de diferents edats. L'alçada del nen estarà relacionada estocàsticament amb l'any de naixement: per exemple, quan un escolar té 7 anys, això afecta la probabilitat de creixement, només de manera que la persona serà més alta de 3 centímetres.
Podeu formalitzar aquest enfocament en un model de regressió en línia recta, per exemple, de la següent manera: alçada i=b 0 + b 1agei + εi, on b 0 és la intersecció, b 1 és el paràmetre per l'edat. es multiplica quan s'obté el control d'elevació. Aquest és un terme d'error. És a dir, s'assumeix que l'alçada es preveu per l'edat amb un cert error.
Un formulari vàlid ha de coincidir amb tots els punts d'informació. Així, la direcció rectilínia (nivell i=b 0 + b 1agei) no pot ser una equació per a un model de dades, si no respon clarament a tots els punts. és a dirsense excepció, tota la informació es troba perfectament en línia. El marge d'error εi s'ha d'introduir a l'equació de manera que el formulari coincideixi absolutament amb tots els elements d'informació.
Per fer una inferència estadística, primer hem d'assumir algunes distribucions de probabilitat per a ε i. Per exemple, es pot suposar que les distribucions de ε i tenen una forma gaussiana amb mitjana zero. En aquest cas, el model tindrà 3 paràmetres: b 0, b 1 i la variància de la distribució gaussiana.
Podeu especificar formalment el model com a (S, P).
En aquest exemple, el model es defineix especificant S i, per tant, es poden fer algunes hipòtesis sobre P. Hi ha dues opcions:
Aquest creixement es pot aproximar mitjançant una funció lineal de l'edat;
Que els errors en l'aproximació es distribueixen com dins d'un gaussià.
Observacions generals
Els paràmetres estadístics dels models són una classe especial de projecció matemàtica. Què fa que una espècie sigui diferent d'una altra? Per tant, el model estadístic és no determinista. Així, en ell, a diferència de les equacions matemàtiques, determinades variables no tenen uns valors determinats, sinó que tenen una distribució de possibilitats. És a dir, les variables individuals es consideren estocàstiques. A l'exemple anterior, ε és una variable estocàstica. Sense ell, la projecció seria determinista.
La construcció d'un model estadístic s'utilitza sovint, fins i tot si es considera que el procés material és determinista. Per exemple, llançar monedes és, en principi, una acció predeterminada. Tanmateix, en la majoria dels casos encara es modela com a estocàstic (mitjançant un procés de Bernoulli).
Segons Konishi i Kitagawa, hi ha tres objectius per a un model estadístic:
- Prediccions.
- Expulsió d'informació.
- Descripció de les estructures estocàstiques.
Mida de la projecció
Suposem que hi ha un model de predicció estadística, El model s'anomena paramètric si O té una dimensió finita. A la solució, heu d'escriure
on k és un nombre enter positiu (R significa qualsevol nombre real). Aquí k s'anomena la dimensió del model.
Com a exemple, podem suposar que totes les dades provenen d'una distribució gaussiana univariada:
En aquest exemple, la dimensió de k és 2.
I com a altre exemple, es pot suposar que les dades consisteixen en (x, y) punts, que se suposa que es distribueixen en línia recta amb residus gaussians (amb mitjana zero). Aleshores la dimensió del model econòmic estadístic és igual a 3: la intersecció de la recta, el seu pendent i la variància de la distribució de residus. Cal tenir en compte que en geometria una recta té una dimensió d'1.
Tot i que el valor anterior és tècnicament l'únic paràmetre que té la dimensió k, de vegades es considera que conté k valors diferents. Per exemple, amb una distribució gaussiana unidimensional, O és l'únic paràmetre amb una mida de 2, però de vegades es considera que conté dosparàmetre individual: valor mitjà i desviació estàndard.
Un model de procés estadístic és no paramètric si el conjunt de valors O és de dimensions infinites. També és semiparamètric si té paràmetres de dimensions finites i infinites. Formalment, si k és una dimensió de O i n és el nombre de mostres, els models semi-paramètrics i no paramètrics tenen
llavors el model és semi-paramètric. En cas contrari, la projecció no és paramètrica.
Els models paramètrics són les estadístiques més utilitzades. Pel que fa a les projeccions semiparamètriques i no paramètriques, Sir David Cox va dir:
"En general, impliquen menys hipòtesis sobre textura i forma de distribució, però inclouen teories poderoses sobre l'autosuficiència."
Models imbricats
No els confongueu amb projeccions multinivell.
Dos models estadístics estan imbricats si el primer es pot convertir al segon imposant restriccions als paràmetres del primer. Per exemple, el conjunt de totes les distribucions gaussianes té un conjunt imbricat de distribucions de mitjana zero:
És a dir, cal limitar la mitjana en el conjunt de totes les distribucions gaussianes per obtenir distribucions amb mitjana zero. Com a segon exemple, el model quadratic y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) té un model lineal incrustat y=b 0 + b 1 x + ε, ε ~ N (0,σ 2), és a dir, el paràmetre b2 és igual a 0.
En aquests dos exemples, el primer model té una dimensionalitat més alta que el segon model. Això és sovint, però no sempre. Un altre exemple és el conjunt de distribucions gaussianes amb mitjana positiva, que té una dimensió 2.
Comparació de models
S'assumeix que hi ha una distribució de probabilitat "vertadera" subjacent a les dades observades induïdes pel procés que la va generar.
I també es poden comparar models entre si, mitjançant anàlisi exploratòria o confirmatòria. En una anàlisi exploratòria, es formulen diferents models i es fa una valoració de com cadascun d'ells descriu les dades. En una anàlisi de confirmació, es compara la hipòtesi formulada anteriorment amb l'original. Els criteris comuns per a això inclouen P 2, el factor bayesià i la probabilitat relativa.
El pensament de Konishi i Kitagawa
“La majoria dels problemes d'un model matemàtic estadístic es poden considerar preguntes predictives. Normalment es formulen com a comparacions de diversos factors."
A més, Sir David Cox va dir: "Com a traducció del tema, el problema del model estadístic és sovint la part més important de l'anàlisi."