1 / 97

Kvantitatiiviset tutkimusmenetelmät

Kvantitatiiviset tutkimusmenetelmät. Luento 7 Logistinen regressioanalyysi ja lineaariset mallit Kaisu Puumalainen. Binäärinen logistinen regressio. Logistinen regressioanalyysi. selitettävä luokiteltu ja selittäjät jatkuvia (voi olla myös kategorisia ) ryhmät a priori

raleigh
Download Presentation

Kvantitatiiviset tutkimusmenetelmät

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kvantitatiiviset tutkimusmenetelmät Luento 7 Logistinen regressioanalyysi ja lineaariset mallit Kaisu Puumalainen

  2. Binäärinen logistinen regressio

  3. Logistinenregressioanalyysi • selitettävä luokiteltu ja selittäjät jatkuvia (voi olla myös kategorisia) • ryhmät a priori • 2 ryhmää -> binary (dichotomous) logistic • 3-k ryhmää -> ordinalresponse tai multinomial (polytomous) logistic • Hosmer & Lemeshow (2000) AppliedLogistic Regression, 2nd ed. New York: Wiley • http://www2.chass.ncsu.edu/garson/pa765/logistic.htm • http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#logistic_toc.htm

  4. Sovelluksia • asiakkuuden ja ei-asiakkuuden selittäminen • mikä erottaa kannattavia ja ei-kannattavia yrityksiä • miksi toinen tuote menestyy ja toinen ei • mikä on erilaisten tekijöiden vaikutus taudin puhkeamisriskiin

  5. Vaiheet • tavoitteet • Mitkä selittäjät vaikuttavat merkitsevästi • Vaikutusten suunta ja suuruus • luokittelu ryhmiin, ennustaminen • suunnittelu • selittäjien valinta • riittävä otoskoko • analyysi- ja validointiotokset • edellytykset • Muuttujien mittaustaso ja datan riittävyys • OLS edellytyksiä ei ole

  6. Vaiheet • mallin estimointi • enter tai stepwise, maximumlikelihood • ennustetarkkuuden arviointi • mallin merkitsevyys • selityskerroin • Onnistumisprosentti luokittelussa • tulkinta • Kertoimet ja oddsratio • validointi • splitsample

  7. Muuttujienvalinta • selitettävä • aidosti luokiteltu tai jatkuvasta tehty • dikotomineneli binäärinen (tai 3-4 ryhmää) • voidaan myös verrata vain ääriryhmiä • Huom. SAS EG binäärinen vaatii, että selitettävässä ei esiinny mitään muuta kuin 2 eri arvoa (puuttuvat arvot suodatettava etukäteen) • selittäjät • Jatkuvia tai luokiteltuja • Luokitelluille ei tarvitse tehdä erillistä dummy-muunnosta, vaan SAS tekee sen itse

  8. Otoksenriittävyys • min 10 (miel. 20) havaintoa per selittäjä • Selitettävän muuttujan joka ryhmässä väh. 20 havaintoa tai ainakin enemmän kuin selittäjiä • Selitettävän muuttujan ryhmät miel. suunnilleen samankokoisia • analyysiotos 50-75% ja holdout 25-50% • ositettu otanta jotta ryhmäkoot säilyvät edustavina

  9. Estimointi • vaihtoehtona diskriminanttianalyysi, mutta sillä on tiukemmat taustaedellytykset • Maximumlikelihood-menetelmä • muistuttaa tavallista regressiota • Testit • Epälineaarisiajakategorisiasaadaanmukaan • Diagnostiikkaa • Ennustaatapahtumantodennäköisyyden p jaoddsinelivedonlyöntisuhteenOdds = p/(1-p) eli p= odds/(1+odds)

  10. Lineaarinen vs. logistinen

  11. Logistinen malli

  12. Esimerkki: logit= -6+.39x

  13. Esimerkki: logit= -6+.39x

  14. Estimointi • OLS estimointi ei toimi, koska residuaalien varianssi ei ole vakio • Ei analyyttista ratkaisua, vaan iteratiivinen maximum likelihood-estimointi

  15. Parametriestimaatit • tulkinta eroaa OLS-regressiosta: • positiivinen b lisää tapahtuman todennäköisyyttä ja negatiivinen b vähentää, mutta yhteys on lineaarinen vain logitin kanssa, ei oddsin eikä todennäköisyyden!! • Selittäjän Odds ratio = exp(b) = a -> kun x kasvaa yhdellä niin odds a-kertaistuu • Kun x kasvaa kahdella niin odds a2-kertaistuu • ”Standardoituja” kertoimia ei saa muuten kuin standardoimalla selittäjät ennen estimointia

  16. Keskivirheetjamerkitsevyys • Kertoimen b luottamusväli • LCL=b - z*SEb UCL=b + z*SEb • Odds ration luottamusväli • eLCL …eUCL • kertoimen b merkitsevyyden testaus • Wald = b2 / SE2b noudattaa khi-toiseen jakaumaa df=1, jos sig.<.05 niin kerroin on merkitsevä

  17. Mallinhyvyys • Ei % y:n vaihtelusta kuten OLS, vaan yhteensopimattomuutta (deviance) • Vertailupohjana perusmalli (basemodel, nullmodel), jossa selittäjänä vain vakio • Deviance-mittarina -2log likelihood (–2LL) • -> minimiarvo on nolla ja pienet arvot hyviä • pseudo R2 , selityskertoimet • ei kerro montako % y:n vaihtelusta selittyy x:ien avulla • Yleensä matalampia kuin OLS-mallin R2 • Yksinkertaisin versio R2=(Dnull – Dk) / Dnull • Cox&Snell maksimi alle 1 • Nagelkerke ”Max-rescaled R Square” aina parempi, koska max=1

  18. Mallinmerkitsevyys • OLS F-testin asemesta likelihoodratiochi square • Chi square= Dnull – Dk • H0:malli yhtä huono kuin nollamalli; df=k • Jos sig<.05 niin malli on merkitsevä • Vaihtoehtoina Wald tai Hosmer&Lemeshow (jossa H0: malli on yhteensopiva datan kanssa!)

  19. Residuaalit • Pearson ja Deviance-residuaalit • Iso arvo tarkoittaa että ko. havainto sopii huonosti malliin, eli sen poisjättäminen parantaisi mallin sopivuutta dataan

  20. Diagnostiikka • Periaatteessa samoja kuin OLS-regressiossa • Leverage (kuinka erikoinen havainto) tulkittavissa vain havainnoilla, joilla ennustettu todennäköisyys välillä .10 … .90 • DFBETA (paljonko vaikuttaa kertoimiin) • Cook (paljonko vaikuttaa sopivuuteen)

  21. Luokittelu • ennustetarkkuus: ovatko havainnot luokiteltu oikeisiin ryhmiinsä • Huom! Joskus hyvästäkin mallista voi tulla huono ennustetarkkuus • luokittelumatriisi • hit ratio: montako % luokiteltiin oikein

  22. Luokittelumatriisi

  23. Luokittelu • ennustetarkkuus verrattuna sattumaan • yhtäsuuret ryhmät • c=1/ryhmien määrä • erisuuret ryhmät • maximum chance criterion c= suurimman ryhmän suhteellinen osuus • proportional chance criterion c=p2+(1-p)2 jos kaksi ryhmää • hit ratio po. vähintään 1,25 kertaa sattumalta saatavan suuruinen

  24. SAS-esimerkki • Aineistona pankin asiakkaat • Selitettävä muuttuja DEFAULT, luokittelu (1=maksuhäiriö, 0=ei maksuhäiriöitä) • Selittäjinä • Koulutus, aika samassa osoitteessa, aika samassa työpaikassa, tulot, velat suhteessa tuloihin • Huom! SAS laskee puuttuvan arvon omaksi luokakseen, joten suodata analyysiin vain ne havainnot, joilla selitettävä muuttuja saa validin arvon

  25. Puuttuvien arvojen suodatus

  26. Puuttuvien arvojen suodatus Selitettävän muuttujan puuttuvat arvot suodatetaan pois datasta

  27. SAS: analyze – regression - logistic Dummy-koodaus Kategoriset selittäjät tänne

  28. Selitettävän tiedot Tämän luokan todennäköisyyttä mallinnetaan

  29. Selittäjät Valitse kaikki muuttujat ja klikkaa Main

  30. Enter vai stepwise

  31. Mitä tulostetaan

  32. Kuvaajat

  33. Mitä tallennetaan

  34. SAS- koodi • PROC LOGISTIC DATA=WORK.SORTTempTableSorted • PLOTS(ONLY)=ALL • ; • CLASS ed (PARAM=REF); • MODEL default (Event = '1')=employ address income debtinced / • SELECTION=NONE • INFLUENCE • LACKFIT • AGGREGATE SCALE=NONE • RSQUARE • CTABLE • PPROB=(0.5) • LINK=LOGIT • CLPARM=BOTH • CLODDS=BOTH • ALPHA=0.05 • ; • OUTPUT OUT=LOGREG.PREDLogRegPredictionsFILTER_FOR_(LABEL="Logistic regression predictions and statistics for SASUSER.FILTER_FOR_BANKLOAN_SAS7BDAT") • PREDPROBS=INDIVIDUAL • RESCHI=reschi_default • RESDEV=resdev_default • DIFCHISQ=difchisq_default • DIFDEV=difdev_default • UPPER=upper_default • LOWER=lower_default ; • RUN; • QUIT; Footer

  35. Menetelmän perustiedot

  36. Kategoristen muuttujien koodaus

  37. Mallin merkitsevyys ja sopivuus Tulisi olla lähellä ykköstä ja ei-merkitsevä Cox-SnellNagelkerke

  38. Mallin ja selittäjien merkitsevyys Mallin merkitsevyys, <.05 on merkitsevä Kunkin selittäjän merkitsevyys, <.05 on merkitsevä

  39. Parametriestimaatit ja merkitsevyys Mitä kauemmin samassa työpaikassa sitä pienempi maksuhäiriön todennäköisyys, korkein maksuhäiriön tn koulutustasolla 2 ja matalin tasolla 4 (tosin koulutus ei merkitsevä)

  40. Yksi vuosi lisää samassa työpaikassa pienentää maksuhäiriön oddsia 0.82-kertaiseksi Kuinka hyvin ennustettu todennäköisyys ja todellinen maksuhäiriöluokka korreloivat keskenään. D,Gamma ja tau välillä 0…1, isot hyviä

  41. Parametriestimaattien luottamusvälejä

  42. Oddsien luottamusvälit

  43. ROC- käyrä: isompi alue käyrän alapuolella -> paremmin luokitteleva malli % of eventscorrectlyclassified (% of defaultspredicted as default) % of non-eventsincorrectlyclassified (% of non-defpredicted as defaults)

  44. Luokittelu ja mallin sopiuvuus 140/183 94/150 56/196 43/137 Testaa mallin sopivuutta, H0: malli on yhteensopiva, eli p ei saisi olla <.05

  45. Havaintojen listaus I Havaintokohtainen listaus selittäjien arvoista ja residuaaleista. Iso residuaali tarkoittaa että mallin sopivuus paranisi paljon jos havainto jätettäisiin pois

  46. Havaintojen listaus II Leverage Vaikutus parametriestimaatteihin Vaikutus luottamusväleihin

  47. Havaintojen listaus III Vaikutus luottamusväleihin Vaikutus mallin sopivuuteen

  48. Diagnostiikkaa

  49. Diagnostiikkaa

More Related