970 likes | 1.45k Views
Kvantitatiiviset tutkimusmenetelmät. Luento 7 Logistinen regressioanalyysi ja lineaariset mallit Kaisu Puumalainen. Binäärinen logistinen regressio. Logistinen regressioanalyysi. selitettävä luokiteltu ja selittäjät jatkuvia (voi olla myös kategorisia ) ryhmät a priori
E N D
Kvantitatiiviset tutkimusmenetelmät Luento 7 Logistinen regressioanalyysi ja lineaariset mallit Kaisu Puumalainen
Logistinenregressioanalyysi • selitettävä luokiteltu ja selittäjät jatkuvia (voi olla myös kategorisia) • ryhmät a priori • 2 ryhmää -> binary (dichotomous) logistic • 3-k ryhmää -> ordinalresponse tai multinomial (polytomous) logistic • Hosmer & Lemeshow (2000) AppliedLogistic Regression, 2nd ed. New York: Wiley • http://www2.chass.ncsu.edu/garson/pa765/logistic.htm • http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#logistic_toc.htm
Sovelluksia • asiakkuuden ja ei-asiakkuuden selittäminen • mikä erottaa kannattavia ja ei-kannattavia yrityksiä • miksi toinen tuote menestyy ja toinen ei • mikä on erilaisten tekijöiden vaikutus taudin puhkeamisriskiin
Vaiheet • tavoitteet • Mitkä selittäjät vaikuttavat merkitsevästi • Vaikutusten suunta ja suuruus • luokittelu ryhmiin, ennustaminen • suunnittelu • selittäjien valinta • riittävä otoskoko • analyysi- ja validointiotokset • edellytykset • Muuttujien mittaustaso ja datan riittävyys • OLS edellytyksiä ei ole
Vaiheet • mallin estimointi • enter tai stepwise, maximumlikelihood • ennustetarkkuuden arviointi • mallin merkitsevyys • selityskerroin • Onnistumisprosentti luokittelussa • tulkinta • Kertoimet ja oddsratio • validointi • splitsample
Muuttujienvalinta • selitettävä • aidosti luokiteltu tai jatkuvasta tehty • dikotomineneli binäärinen (tai 3-4 ryhmää) • voidaan myös verrata vain ääriryhmiä • Huom. SAS EG binäärinen vaatii, että selitettävässä ei esiinny mitään muuta kuin 2 eri arvoa (puuttuvat arvot suodatettava etukäteen) • selittäjät • Jatkuvia tai luokiteltuja • Luokitelluille ei tarvitse tehdä erillistä dummy-muunnosta, vaan SAS tekee sen itse
Otoksenriittävyys • min 10 (miel. 20) havaintoa per selittäjä • Selitettävän muuttujan joka ryhmässä väh. 20 havaintoa tai ainakin enemmän kuin selittäjiä • Selitettävän muuttujan ryhmät miel. suunnilleen samankokoisia • analyysiotos 50-75% ja holdout 25-50% • ositettu otanta jotta ryhmäkoot säilyvät edustavina
Estimointi • vaihtoehtona diskriminanttianalyysi, mutta sillä on tiukemmat taustaedellytykset • Maximumlikelihood-menetelmä • muistuttaa tavallista regressiota • Testit • Epälineaarisiajakategorisiasaadaanmukaan • Diagnostiikkaa • Ennustaatapahtumantodennäköisyyden p jaoddsinelivedonlyöntisuhteenOdds = p/(1-p) eli p= odds/(1+odds)
Estimointi • OLS estimointi ei toimi, koska residuaalien varianssi ei ole vakio • Ei analyyttista ratkaisua, vaan iteratiivinen maximum likelihood-estimointi
Parametriestimaatit • tulkinta eroaa OLS-regressiosta: • positiivinen b lisää tapahtuman todennäköisyyttä ja negatiivinen b vähentää, mutta yhteys on lineaarinen vain logitin kanssa, ei oddsin eikä todennäköisyyden!! • Selittäjän Odds ratio = exp(b) = a -> kun x kasvaa yhdellä niin odds a-kertaistuu • Kun x kasvaa kahdella niin odds a2-kertaistuu • ”Standardoituja” kertoimia ei saa muuten kuin standardoimalla selittäjät ennen estimointia
Keskivirheetjamerkitsevyys • Kertoimen b luottamusväli • LCL=b - z*SEb UCL=b + z*SEb • Odds ration luottamusväli • eLCL …eUCL • kertoimen b merkitsevyyden testaus • Wald = b2 / SE2b noudattaa khi-toiseen jakaumaa df=1, jos sig.<.05 niin kerroin on merkitsevä
Mallinhyvyys • Ei % y:n vaihtelusta kuten OLS, vaan yhteensopimattomuutta (deviance) • Vertailupohjana perusmalli (basemodel, nullmodel), jossa selittäjänä vain vakio • Deviance-mittarina -2log likelihood (–2LL) • -> minimiarvo on nolla ja pienet arvot hyviä • pseudo R2 , selityskertoimet • ei kerro montako % y:n vaihtelusta selittyy x:ien avulla • Yleensä matalampia kuin OLS-mallin R2 • Yksinkertaisin versio R2=(Dnull – Dk) / Dnull • Cox&Snell maksimi alle 1 • Nagelkerke ”Max-rescaled R Square” aina parempi, koska max=1
Mallinmerkitsevyys • OLS F-testin asemesta likelihoodratiochi square • Chi square= Dnull – Dk • H0:malli yhtä huono kuin nollamalli; df=k • Jos sig<.05 niin malli on merkitsevä • Vaihtoehtoina Wald tai Hosmer&Lemeshow (jossa H0: malli on yhteensopiva datan kanssa!)
Residuaalit • Pearson ja Deviance-residuaalit • Iso arvo tarkoittaa että ko. havainto sopii huonosti malliin, eli sen poisjättäminen parantaisi mallin sopivuutta dataan
Diagnostiikka • Periaatteessa samoja kuin OLS-regressiossa • Leverage (kuinka erikoinen havainto) tulkittavissa vain havainnoilla, joilla ennustettu todennäköisyys välillä .10 … .90 • DFBETA (paljonko vaikuttaa kertoimiin) • Cook (paljonko vaikuttaa sopivuuteen)
Luokittelu • ennustetarkkuus: ovatko havainnot luokiteltu oikeisiin ryhmiinsä • Huom! Joskus hyvästäkin mallista voi tulla huono ennustetarkkuus • luokittelumatriisi • hit ratio: montako % luokiteltiin oikein
Luokittelu • ennustetarkkuus verrattuna sattumaan • yhtäsuuret ryhmät • c=1/ryhmien määrä • erisuuret ryhmät • maximum chance criterion c= suurimman ryhmän suhteellinen osuus • proportional chance criterion c=p2+(1-p)2 jos kaksi ryhmää • hit ratio po. vähintään 1,25 kertaa sattumalta saatavan suuruinen
SAS-esimerkki • Aineistona pankin asiakkaat • Selitettävä muuttuja DEFAULT, luokittelu (1=maksuhäiriö, 0=ei maksuhäiriöitä) • Selittäjinä • Koulutus, aika samassa osoitteessa, aika samassa työpaikassa, tulot, velat suhteessa tuloihin • Huom! SAS laskee puuttuvan arvon omaksi luokakseen, joten suodata analyysiin vain ne havainnot, joilla selitettävä muuttuja saa validin arvon
Puuttuvien arvojen suodatus Selitettävän muuttujan puuttuvat arvot suodatetaan pois datasta
SAS: analyze – regression - logistic Dummy-koodaus Kategoriset selittäjät tänne
Selitettävän tiedot Tämän luokan todennäköisyyttä mallinnetaan
Selittäjät Valitse kaikki muuttujat ja klikkaa Main
SAS- koodi • PROC LOGISTIC DATA=WORK.SORTTempTableSorted • PLOTS(ONLY)=ALL • ; • CLASS ed (PARAM=REF); • MODEL default (Event = '1')=employ address income debtinced / • SELECTION=NONE • INFLUENCE • LACKFIT • AGGREGATE SCALE=NONE • RSQUARE • CTABLE • PPROB=(0.5) • LINK=LOGIT • CLPARM=BOTH • CLODDS=BOTH • ALPHA=0.05 • ; • OUTPUT OUT=LOGREG.PREDLogRegPredictionsFILTER_FOR_(LABEL="Logistic regression predictions and statistics for SASUSER.FILTER_FOR_BANKLOAN_SAS7BDAT") • PREDPROBS=INDIVIDUAL • RESCHI=reschi_default • RESDEV=resdev_default • DIFCHISQ=difchisq_default • DIFDEV=difdev_default • UPPER=upper_default • LOWER=lower_default ; • RUN; • QUIT; Footer
Mallin merkitsevyys ja sopivuus Tulisi olla lähellä ykköstä ja ei-merkitsevä Cox-SnellNagelkerke
Mallin ja selittäjien merkitsevyys Mallin merkitsevyys, <.05 on merkitsevä Kunkin selittäjän merkitsevyys, <.05 on merkitsevä
Parametriestimaatit ja merkitsevyys Mitä kauemmin samassa työpaikassa sitä pienempi maksuhäiriön todennäköisyys, korkein maksuhäiriön tn koulutustasolla 2 ja matalin tasolla 4 (tosin koulutus ei merkitsevä)
Yksi vuosi lisää samassa työpaikassa pienentää maksuhäiriön oddsia 0.82-kertaiseksi Kuinka hyvin ennustettu todennäköisyys ja todellinen maksuhäiriöluokka korreloivat keskenään. D,Gamma ja tau välillä 0…1, isot hyviä
ROC- käyrä: isompi alue käyrän alapuolella -> paremmin luokitteleva malli % of eventscorrectlyclassified (% of defaultspredicted as default) % of non-eventsincorrectlyclassified (% of non-defpredicted as defaults)
Luokittelu ja mallin sopiuvuus 140/183 94/150 56/196 43/137 Testaa mallin sopivuutta, H0: malli on yhteensopiva, eli p ei saisi olla <.05
Havaintojen listaus I Havaintokohtainen listaus selittäjien arvoista ja residuaaleista. Iso residuaali tarkoittaa että mallin sopivuus paranisi paljon jos havainto jätettäisiin pois
Havaintojen listaus II Leverage Vaikutus parametriestimaatteihin Vaikutus luottamusväleihin
Havaintojen listaus III Vaikutus luottamusväleihin Vaikutus mallin sopivuuteen