Regressió logística: model i mètodes

Taula de continguts:

Regressió logística: model i mètodes
Regressió logística: model i mètodes
Anonim

S'utilitzen mètodes de regressió logística i anàlisi discriminant quan cal diferenciar clarament els enquestats per categories objectiu. En aquest cas, els propis grups estan representats per nivells d'un paràmetre d'una sola variant. Fem una ullada més de prop al model de regressió logística i esbrineu per què és necessari.

regressió logística
regressió logística

Informació general

Un exemple de problema en què s'utilitza la regressió logística és la classificació dels enquestats en grups que compren i no compren mostassa. La diferenciació es realitza d'acord amb les característiques sociodemogràfiques. Entre ells destaquen, en particular, l'edat, el sexe, el nombre de familiars, els ingressos, etc. En les operacions hi ha criteris de diferenciació i una variable. Aquest últim codifica les categories objectiu en les quals, de fet, s'han de dividir els enquestats.

Matisos

S'ha de dir que el ventall de casos en què s'aplica la regressió logística és molt més reduït que per a l'anàlisi discriminant. En aquest sentit, es considera l'ús d'aquest últim com a mètode universal de diferenciaciómés preferida. A més, els experts recomanen iniciar estudis de classificació amb anàlisi discriminant. I només en cas d'incertesa sobre els resultats, podeu utilitzar la regressió logística. Aquesta necessitat es deu a diversos factors. La regressió logística s'utilitza quan hi ha una comprensió clara del tipus de variables independents i dependents. En conseqüència, es selecciona un dels 3 procediments possibles. En l'anàlisi discriminant, l'investigador sempre tracta d'una operació estàtica. Implica una variable categòrica dependent i diverses variables independents amb qualsevol tipus d'escala.

Vistes

La tasca d'un estudi estadístic que utilitza la regressió logística és determinar la probabilitat que un determinat enquestat sigui assignat a un grup determinat. La diferenciació es realitza segons determinats paràmetres. A la pràctica, segons els valors d'un o més factors independents, és possible classificar els enquestats en dos grups. En aquest cas, es produeix una regressió logística binària. A més, els paràmetres especificats es poden utilitzar quan es divideixen en grups de més de dos. En aquesta situació, es produeix una regressió logística multinomial. Els grups resultants s'expressen en nivells d'una sola variable.

regressió logística
regressió logística

Exemple

Diguem que hi ha respostes dels enquestats a la pregunta de si estan interessats en l'oferta de compra d'un terreny als suburbis de Moscou. Les opcions són "no"i sí. Cal esbrinar quins factors tenen una influència predominant en la decisió dels possibles compradors. Per fer-ho, es fan preguntes als enquestats sobre la infraestructura del territori, la distància a la capital, l'àrea del lloc, la presència/absència d'un edifici residencial, etc. Mitjançant la regressió binària, és possible distribuir els enquestats en dos grups. El primer inclourà aquells que estiguin interessats en l'adquisició: compradors potencials, i el segon, respectivament, aquells que no estiguin interessats en aquesta oferta. Per a cada enquestat, a més, es calcularà la probabilitat de ser assignat a una o altra categoria.

Característiques comparatives

La diferència de les dues opcions anteriors és el diferent nombre de grups i el tipus de variables dependents i independents. En la regressió binària, per exemple, s'estudia la dependència d'un factor dicotòmic d'una o més condicions independents. A més, aquest últim pot tenir qualsevol tipus d'escala. La regressió multinomial es considera una variació d'aquesta opció de classificació. En ell, més de 2 grups pertanyen a la variable dependent. Els factors independents han de tenir una escala ordinal o nominal.

Regressió logística en spss

Al paquet estadístic 11-12 es va introduir una nova versió d'anàlisi: ordinal. Aquest mètode s'utilitza quan el factor dependent pertany a la mateixa escala de nom (ordinal). En aquest cas, es seleccionen variables independents d'un tipus específic. Han de ser ordinals o nominals. La classificació en diverses categories és la que més es considerauniversal. Aquest mètode es pot utilitzar en tots els estudis que utilitzen regressió logística. Tanmateix, l'única manera de millorar la qualitat d'un model és utilitzar les tres tècniques.

control de qualitat d'adequació i regressió logística
control de qualitat d'adequació i regressió logística

Classificació ordinal

S'ha de dir que anteriorment al paquet estadístic no hi havia la possibilitat típica de realitzar anàlisis especialitzades per a factors dependents amb una escala ordinal. Per a totes les variables amb més de 2 grups, es va utilitzar la variant multinominal. L'anàlisi ordinal introduïda relativament recentment té una sèrie de característiques. Tenen en compte les especificitats de l'escala. Mentrestant, en els recursos didàctics, la regressió logística ordinal sovint no es considera com una tècnica separada. Això es deu al següent: l'anàlisi ordinal no té cap avantatge significatiu respecte a la multinomial. L'investigador pot utilitzar aquest últim en presència tant d'una variable dependent ordinal com d'una nominal. Al mateix temps, els processos de classificació gairebé no difereixen entre si. Això vol dir que realitzar anàlisis ordinals no causarà cap dificultat.

Opció d'anàlisi

Considerem un cas simple: la regressió binària. Suposem que, en el procés d'investigació de màrqueting, s'avalua la demanda de graduats d'una determinada universitat metropolitana. Al qüestionari, es van fer preguntes als enquestats, com ara:

  1. Tens treballador? (ql).
  2. Introduïu l'any de graduació (q 21).
  3. Quina és la mitjanapuntuació de graduació (mitjana).
  4. Gènere (q22).

La regressió logística avaluarà l'impacte dels factors independents aver, q 21 i q 22 sobre la variable ql. En poques paraules, l'objectiu de l'anàlisi serà determinar la probable ocupació dels graduats a partir de la informació sobre el camp, l'any de graduació i el GPA.

Indicador de regressió sigmoide logística
Indicador de regressió sigmoide logística

Regressió logística

Per establir paràmetres mitjançant la regressió binària, utilitzeu el menú Analitza ►Regressió ► Logística binària. A la finestra de regressió logística, seleccioneu el factor dependent de la llista de variables disponibles de l'esquerra. És ql. Aquesta variable s'ha de col·locar al camp Dependent. Després d'això, cal introduir factors independents a la gràfica de covariables - q 21, q 22, aver. Aleshores, heu de triar com incloure-los a la vostra anàlisi. Si el nombre de factors independents és superior a 2, s'utilitza el mètode d'introducció simultània de totes les variables, que s'estableix per defecte, però pas a pas. La forma més popular és Backward:LR. Amb el botó Selecciona, podeu incloure a l'estudi no tots els enquestats, sinó només una categoria objectiu específica.

Definir variables categòriques

El botó categòric s'ha d'utilitzar quan una de les variables independents és nominal amb més de 2 categories. En aquesta situació, a la finestra Definir variables categòriques, només es col·loca aquest paràmetre a la secció Covariables categòriques. En aquest exemple, no hi ha aquesta variable. Després d'això, a la llista desplegable segueix el contrastseleccioneu l'element Desviació i premeu el botó Canvia. Com a resultat, a partir de cada factor nominal es formaran diverses variables dependents. El seu nombre correspon al nombre de categories de la condició inicial.

Desa noves variables

Mitjançant el botó Desa al quadre de diàleg principal de l'estudi, s'estableix la creació de nous paràmetres. Contindran els indicadors calculats en el procés de regressió. En particular, podeu crear variables que defineixin:

  1. Pertanyent a una categoria de classificació específica (afiliació a un grup).
  2. Probabilitat d'assignar un enquestat a cada grup d'estudi (Probabilitats).

Quan utilitza el botó Opcions, l'investigador no obté cap opció significativa. En conseqüència, es pot ignorar. Després de fer clic al botó "D'acord", els resultats de l'anàlisi es mostraran a la finestra principal.

coeficient de regressió logística
coeficient de regressió logística

Comprovació de qualitat per a l'adequació i la regressió logística

Considereu les proves omnibus de la taula de coeficients del model. Mostra els resultats de l'anàlisi de la qualitat de l'aproximació del model. A causa del fet que s'ha establert una opció pas a pas, cal mirar els resultats de l'última etapa (Pas 2). Es considerarà un resultat positiu si es troba un augment de l'indicador de Chi quadrat quan es passa a l'etapa següent amb un alt grau de significació (Sig. < 0,05). La qualitat del model s'avalua a la línia Model. Si s'obté un valor negatiu, però no es considera significatiu amb l' alta materialitat global del model, l'últimes pot considerar pràcticament adequat.

Taules

Model Summary permet estimar l'índex de variància total, que es descriu pel model construït (índex R Square). Es recomana utilitzar el valor de Nagelker. El paràmetre Nagelkerke R Square es pot considerar un indicador positiu si està per sobre de 0,50. Després d'això, s'avaluen els resultats de la classificació, en la qual es comparen els indicadors reals de pertinença a una o altra categoria en estudi amb els predits a partir del model de regressió. Per a això s'utilitza la taula de classificació. També ens permet extreure conclusions sobre la correcció de la diferenciació per a cada grup considerat.

model de regressió logística
model de regressió logística

La taula següent ofereix una oportunitat per conèixer la significació estadística dels factors independents introduïts en l'anàlisi, així com cada coeficient de regressió logística no estandarditzada. A partir d'aquests indicadors, és possible predir la pertinença de cada enquestat de la mostra a un grup concret. Mitjançant el botó Desa, podeu introduir noves variables. Contindran informació sobre la pertinença a una categoria de classificació determinada (Predictedcategory) i la probabilitat de ser inclòs en aquests grups (Predicted probabilities membership). Després de fer clic a "D'acord", els resultats del càlcul apareixeran a la finestra principal de la regressió logística multinomial.

La primera taula, que conté indicadors importants per a l'investigador, és la informació d'ajust del model. Un alt nivell de significació estadística indicaria una alta qualitat iidoneïtat d'utilitzar el model en la resolució de problemes pràctics. Una altra taula significativa és Pseudo R-Square. Permet estimar la proporció de la variància total en el factor dependent, que ve determinada per les variables independents seleccionades per a l'anàlisi. D'acord amb la taula Tests de ràtio de versemblança, podem extreure conclusions sobre la significació estadística d'aquest últim. Les estimacions dels paràmetres reflecteixen coeficients no estandarditzats. S'utilitzen en la construcció de l'equació. A més, per a cada combinació de variables, es va determinar la significació estadística del seu impacte en el factor dependent. Mentrestant, en la investigació de màrqueting, sovint es fa necessari diferenciar els enquestats per categories no individualment, sinó com a part del grup objectiu. Per a això, s'utilitza la taula de freqüències observades i previstes.

Aplicació pràctica

El mètode d'anàlisi considerat s'utilitza àmpliament en el treball dels comerciants. L'any 1991 es va desenvolupar l'indicador de regressió sigmoide logística. És una eina fàcil d'utilitzar i eficaç per predir els preus probables abans que "s'escalfin". L'indicador es mostra al gràfic com un canal format per dues línies paral·leles. Estan igualment allunyats de la tendència. L'amplada del passadís dependrà únicament del període de temps. L'indicador s'utilitza quan es treballa amb gairebé tots els actius, des de parells de divises fins a metalls preciosos.

regressió logística en spss
regressió logística en spss

A la pràctica, s'han desenvolupat 2 estratègies clau per utilitzar l'instrument: per a la ruptura iper un torn. En aquest últim cas, el comerciant se centrarà en la dinàmica dels canvis de preu dins del canal. A mesura que el valor s'acosta a la línia de suport o resistència, s'aposta per la probabilitat que el moviment comenci en sentit contrari. Si el preu s'acosta a la vora superior, podeu desfer-vos de l'actiu. Si es troba al límit inferior, hauríeu de pensar en comprar. L'estratègia de ruptura implica l'ús de comandes. S'instal·len fora dels límits a una distància relativament petita. Tenint en compte que el preu en alguns casos els viola durant un curt període de temps, hauríeu de jugar amb seguretat i establir stop losses. Al mateix temps, és clar, independentment de l'estratègia escollida, el comerciant ha de percebre i avaluar la situació que s'ha plantejat al mercat amb la màxima calma possible.

Conclusió

Per tant, l'ús de la regressió logística us permet classificar ràpidament i fàcilment els enquestats en categories segons els paràmetres donats. Quan analitzeu, podeu utilitzar qualsevol mètode en particular. En particular, la regressió multinomial és universal. Tanmateix, els experts recomanen utilitzar tots els mètodes descrits anteriorment en combinació. Això es deu al fet que en aquest cas la qualitat del model serà significativament més alta. Això, al seu torn, ampliarà l'abast de la seva aplicació.

Recomanat: