540 likes | 839 Views
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 5. predavanje: logistična regresija. Kaj vpliva na multiplo korelacijo?. korelacije prediktorjev s kriterijem ( ) korelacije med prediktorji ( ), vplivne to čke ( / ), napaka merjenja ( ),
E N D
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 5. predavanje: logistična regresija
Kaj vpliva na multiplo korelacijo? • korelacije prediktorjev s kriterijem () • korelacije med prediktorji (), • vplivne točke (/), • napaka merjenja (), • variabilnost OV v vzorcu (). • Stabilnost (SE) modela odvisna od: • korelacij med prediktorji (), • velikosti vzorca (), • vplivnih točk ().
REGRESIJSKE PREDPOSTAVKE: • Naključno vzorčenje • Linearnost • Homoscedastičnost • Normalnost rezidualov • (popolna zanesljivost)
Kaj navajamo pri poročanju? • Regresijski koeficienti • Standardne napake • Intervali zaupanja • Beta koeficienti • (Popravljeni koeficient) multiple korelacije in determinacije • F test za multiplo korelacijo • (standardna napaka napovedi) • Pri postopnem vključevanju še spremembo pojasnjene variance.
Povzetek • SST • Skupnavariabilnost (variabilnost med dejanskimi rezultati in sredino). • SSR • Residualna variabilnost/variabilnost napake (Error) (variabilnost med regresijskimmodelom in dejanskimi razultati). • SSM • variabilnost modela (razlika v variabilnostimed modelom in sredino).
SST Total Variance In The Data SSM SSR Improvement Due to the Model Error in Model Testiranje modela: ANOVA • Če model daje boljšo napoved kot uporaba sredine (srednje vrednosti glede na Y), je pričakovati, da bo SSMmnogo večji kot SSR
Testiranje modela: ANOVA • Srednja kvadrirana napaka: • Vsote kvadratov so skupne vrednosti • Lahko jih izrazimo kot povprečja • Imenujemo jih „srednji kvadrati“ –MS Testiranje modela: R in R2 • R: korelacija med opazovanimi vrednostmi na kriteriju in vrednostmi, napovedanimi z modelom • R2: Delež variance, pojasnjene s strani postavljenega regresijskega modela (kvadriran Pearsonovkoeficientkorelacije • Adj. R2: ocena R2v populaciji („shrinkage“). Slide 8
Regresijske metode: • Hierarhična: • Znani napovedniki (glede na predhodne razskave ali teoretične predpostavke) so najprej vključevani v regresijski model • Zatem so v ločenem koraku/bloku vključeni novi (manj znani/neznani) napovedniki • Raziskovalec določa vrstni red, v katerem so spremenljivke vključevane v model • Je najboljša metoda: • Temelji na preverjanju teorije • Lahko vidiš edinstven napovedni vpliv nove spremenljivke na izid ker so znani napovedniki v modelu konstantni/kontrolirani • You can see the unique predictive influence of a new variable on the outcome because known predictors are held constant in the model. • A slabo: • Zanaša se na to, da raziskovalec ve, kaj počne
Direktna („Forced“): • Vsi napovedniki so vključeni simultano/naenkrat • Dobljeni rezultat je odvisen od spremenljivk, ki jih vključimo v model (lahko so razmeroma naključne) • Zato je pomembno imeti dobre teoretske razloge za vključitev posameznih spremenljivk kot napovednike • Stopenjska („Stepwise“): • Napovedniki so vključeni v model po matematičnem kriteriju (glede na njihove semi-parcialnekorelacijez izidom/kriterijem) • Računalnik izbere spremenljivke v različnih korakih (korak 1: SPSS pogleda za napovednikom, ki zmore pojasniti največ variance v kriterijski spremenljivki) • Problem te metode: temelji le na matematičnem kriteriju (izbor spremenljivk v posameznem koraku je odvisen tudi le od majhnih razlik v semi-parcialnih korelacijah • Bi morala biti uporabljana le v eksploratorne namene…
Revision Revision Exam Anxiety Exam Anxiety Semi-parcialnakorelacija: • Parcialnakorelacija: • Meri odnos med dvema spremenljivkama, pri čemer nadzira učinek tretje spremenljivke na obe • Semi-parcialnakorelacija: • Meri odnos med dvema spremenljivkama, pri čemer nadzira učinek tretje spremenljivke zgolj na eno od obeh • Meri edinstven prispevek prediktorja k pojasnitvi variance kriterija Parcialnakorelacija Semi-parcialnakorelacija
Generalizacija: • Pri regresiji upamo, da bomo lahko posploševali z vzorčne ocene napovedi na celotno populacijo • Za to mora biti zadoščeno vrsti predpostavk • Nespoštovanje teh predpostavk nam preprečuje posploševanje na ciljno populacijo
Osnovne predpostavke: • Tip spremenljivk: Kriterij (izid) mora biti kontinuiran, Napovedniki so lahko kontinuirani ali dihotomni/kategorični • Neničelna varianca: Napovedniki ne smejo imeti ničelne variance • Linearnost: Odnos, ki ga modeliramo, je (naj bo) v realnosti linearen • Neodvisnost: Vse vrednosti na kriteriju/izidu moramo dobiti na različnih osebah Zahtevnejše predpostavke: • Čim manjše multikolinearnost: Napovedniki ne smejo biti visoko med seboj korelirani • Homoscedastičnost: Za vsako vrednost na napovedniku bi morala biti varianca napake konstantna • Neodvisne napake: Za vsak par izmerjenih vrednosti bi morale biti napake nekorelirane • Napake bi morale biti normalno porazdeljene
Kako napovedovati dihotomno spremenljivko? • (npr. uspešnost terapije, zaključek šolanja, pravilna rešitev naloge, strinjanje z določeno trditvijo…) • Uporaba linearne regresije neustrezna: • kršene predpostavke linearnosti, normalnosti in homoscedastičnosti(Var odvisna od p) • napovedane vrednosti izven možnega razpona • neustrezne ocene parametrov in ocene učinkov
Diskriminantna analiza (DA): “poiščemo obteženo vsoto napovednikov (enega: => ANOVA, več => MANOVA), ki maksimizira razlike med skupinama” -> EN DISKRIMINATOR: Skušajmo napovedati spol osebe na podlagi merjene višine: = VERJETNOST (natančnost klasifikacije)
DA: • Diskriminantna funkcija z dvema ali več napovedniki je linearna enačba teh faktorjev, ki je v vlogi separatorja (kriterija) med dvema skupinama • Površina pod sečiščem distribucij je področje napačne klasifikacije • Povezana z multivariatno analizo variance (MANOVA). • Odvisna spremenljivka ima lahko poljubno št. vrednosti. • Zelo občutljiva na predpostavke!
DAse trudi:maksimizirati SS med skupinami v razmerju do SS znotraj skupin • Cilj DA: ne izločiti ene same spremenljivke za ločevanje med skupinami, ampak čim manjše število spremenljvk(lahko tudi latentnih), ki bodo omogočale čimvečjo verjetnost napovedovanja • Postopno vključevanje: na vsakem koraku upošteva vse spremenljivke in izbere tisto, ki najbolje ločuje osebke glede na članstvo v skupini • (ta je vključena v model in program nadaljuje z naslednjim korakom).
Slika odnosa med porodno težo in spola - ilustracija regresije na binarno spremenljivko Če imamo dihotomnoali kako drugače kategorično spremenljivko (ordinalnega tipa) kot napovednik, lahko uporabimo klasično regresijsko analizo („…there is nothing in theregression model thatrequiresregressorvariables to becontinuous – theycanbediscrete or categorical…“) Prilagojena premica gre skozi povprečno porodno težo za 34 novorojenčic (0 – 3,24 kg) in povprečno porodno težo 31 novorojenčkov (1 – 3,43 kg); nagib premice (0,19 kg) je razlika v povprečni teži.
Če imamo dihotomnokriterijsko spremenljivko, pa imamo težavo… - za par z $ 25.000 reg.linija da verjetnost 0,38; - za par z $ 41.000 pa 1,13; - zaslužek $ 14.000 da verjetnost obiska -0,13 (!?)
Nameni logistične regresije • Binarna • Multinomialna • Teorija, ki stoji za LR • Ocenjevanje modela • Ocenjevanje napovednikov Napovedovanje z niza spremenljivk na kategorično (nominalno) spremenljivko. Kdaj in zakaj • Ko želim napovedati izid, ki je kategorična spremenljivka, na osnovi ene ali več kategoričnih ali kontinuiranih napovednikov • Uporabimo jo, ker kategorično izid (kriterij) ne zadovolji predpostavki linearnosti v normalniregresiji • Primeri • Napovedovanje izida terapije – uspešno oziroma neuspešno. • Napovedovanje uspeha v šoli – izdela razred oziroma ne izdela razreda. • Napovedovanje bolezni na delovnem mestu – zboli oziroma ne zboli. • Napovedovanje študijske odločitve – humanistična, družboslovna, naravoslovna.
Prednosti pred DA: vrednosti izven obsega 0 do 1, manj zahtevni pogoji uporabe Prednosti pred MR: vrednosti izven dosega 0 do 1, kršitev homoscedastičnosti • Prednosti sicer: • ne domneva linearnega odnosa med neodvisnimi in odvisno spremenljivko, • ne predvideva homoscedastičnosti, • napake niso nujno razporejene normalno, • neodvisne spremenljivke niso nujno intervalne, • neodvisne spremenljivke niso nujno neomejene.
Pogoji uporabe: • smiselno kodiranje (vrednost odvisne spremenljivke, ki nas najbolj zanima, kodiramo z najvišjo številko), • vključitev relevantnih spremenljivk v model, • izključitev nerelevantrnih spremenljivk, • neodvisne meritve, • majhna napaka merjenja na neodvisnih spremenljivkah, • brez manjkajočih vrednosti, • linearen odnos med logit transformacijo neodvisnih in odvisne spremenljivke, • odsotnost interakcij (lahko uvedemo novo spremenljivko), • čim nižja multikolinearnost neodvisnih spremenljivk, • odsotnost vplivnih točk, • velik vzorec, • v vsakem pogoju vsaj 2 posameznika, v vsaj 80% pogojev vsaj 5 posameznikov.
Z enim napovednikom: • Izid • Napovedujemo verjetnost pojavitve določenega izida • ain b • Je mogoče gledati nanju na enak način kot pri multipliregresiji • Enačba normalne (enostavne) regresije je del enačbe logistične regresije! Z več napovedniki: • Izid • Še vedno napovedujemo verjetnost pojavitve določenega izida • Razlike • Enačba multiple regresije je del enačbe logistične regresije! • Ta del enačbe se razširi tako, da vključi dodatne napovednike Slide 24
Preverjanje verjetnosti določenega dogodka v dveh skupinah, ki ju določa dvojiška spremenljivka X. Na posamezni proučevani enoti se dogodek zgodi ali pa ne zgodi, možna izida sta torej le dva. Preprost primer (2x2): • ali je delež obolelih za določeno boleznijo med kadilci in nekadilci enak (izid: oseba zboli/ne zboli, oseba pa je kadilec ali nekadilec.) Verjetnostna porazdelitev za slučajno spremenljivko, ki opisuje tak izid, je binomska porazdelitev. Ničelna domneva pravi, da je verjetnost proučevanega dogodka v prvi in v drugi skupini enaka. Verjetnosti označimo p1in p2. H0: p1= p2= p Prvo skupino predstavlja vzorec velikosti n1, drugo vzorec velikosti n2. Podatke zapišemo v obliki tabele, ki ima dve vrstici in dva stolpca. Vrstica - izid: dogodek D se zgodi ali ne zgodi: D oz. neD. V stolpce pa skupino 1 in skupino 2, označimo jo x=1 in x=2. V celicah tabele je število enot, ki spadajo v posamično kategorijo.
Iz prvega vzorca dobimo oceno za verjetnost p1, označimo jo ; iz drugega vzorca oceno za verjetnost p2, označimo jo : Oceno za skupno verjetnost p , označimo jo , izračunamo takole: Pripadajoča testna statistika je zapisana v obliki: =1-
Kritične vrednosti pri 5 % stopnji gotovosto sta ± 1,96 → se ne zavrne H0 (p = 2P(Z>1,052)=0,293 (p=0,293))
Zanima nas, kako trajanje terapije z zdravilom A ali zdravilom B vpliva na uspešnost zdravljenja. Trajanje terapije je številska spremenljivka z dovolj veliko zalogo vrednosti (zvezna spremenljivka). Poleg tega nas lahko zanima, kako se na zdravljenje z zdravilom A in B odzivajo moški in kako ženske. (Y=uspešnost zdravljenja; X1=zdravilo, X2=spol, X3=trajanje terapije. obeti (odds) in razmerje obetov (oddsratio); verjetnosti za posamezne dogodke: Obeti za dogodek D v skupini x=1: p1/q1=p1/(1-p1); Obeti za dogodek D v skupini x=2: p2/q2=p2/(1-p2); Iz obetov izračunamo njihovo razmerje (referenčna skupina – vsebinsko vprašanje!): x=1: Ψ2|1=(p2/q2)/p1/q1)=p2q1/p1q2 x=2: Ψ1|2=(p1/q1)/p2/q2)=p1q2/p2q1=1/Ψ2|1
Ocena za obete za dogodek D v x=1 je: a/b Ψ2|1=(c/d)/a/b)=cb/ad Ocena za obete za dogodek D v x=2 je: c/d Ψ1|2=(a/b)/c/d)=ad/bc Teorija pove, da je statistika ln asimptotično porazdeljena po normalni porazdelitvi, vzorčna varianca za ln pa je: var(ln) = 1/a +1/b +1/c +1/d H0pa postavimo takole: razmerje obetov je 1; Ψ= 1 H1 : Ψ≠ 1
Obeti in razmerje obetov: Obet = p(1) : p(0) Npr.: PISA – pričakovana naravoslovna kariera pri 30. in naravoslovna kariera staršev Obeti za otroke naravoslovcev: 443:896 = 0,49 Obeti za otroke ostalih: 1346:3725 = 0,36 Razmerje obetov (oddsratio, OR): 0,49/0,36 = 1,37 OR enako v obe smeri. OR p(1|starši nar.) / p(1|starši nenar.) = 0,33/0,27 = 1,25 !
Model logistične regresije: linearni odnos preko pretvorbe odvisne spremenljivke (ta transformacija se imenuje ‘logit’ in je opredeljena kot logaritem obetov za dogodek, ki nas zanima): p(Y) …zvezna spremenljivka med 0 in 1 (verjetnost) obeti (odds): p/(1-p) …zvezna sprem. med 0 in logit(Y) = ln[p/(1-p)] …zvezna sprem. med - in Napovedujemo logit:
Pomen parametrov pri LR: • bni niti Y niti p! (vendar lahko smiselna primerjava p za različne Xi) • bje logit (pri nespremenjenih preostalih napovednikih) • exp(b) = OR za Xi in Xi+1(pri konstantnih preostalih napoved.) • Zakaj? Obet =p/(1-p) = exp(a+bXi)=exp(a)×[exp(b)]Xi • Pri katerem X je p = 0,5? • Obet = 1 logit = ln(1) = 0 = a+bX X = -a/b • Ocenjevanje parametrov: metoda največjega verjetja (maximumlikelihood)
Ocenjevanje modela • Log-likelihood ocena • Analogna vsoti kvadratov redzidualov v multipliregresiji • Je indikator, koliko je nepojasnjene informacije potem, ko smo model prilagodili. • Velike vrednosti kažejo na slabo prileganje statističnih modelov
Ocena sprememb v modelu / modelih • Možno je izračunati log-verjetjeza različne modele in jih med seboj primerjati tako, da gledamo razlike med njihovimi log-verjetji.
Ocenjevanje napovednikov: Waldovindeks • Enak t-statistikiv regresiji • Preverja ničelno hipotezo, da b = 0 • Je pristranski, kadar je bvelik. • Raje pogledati statistike razmerja verjetij
Ocenjevanje napovednikov:razmerje obetov oz. Exp(b) • Oceni spremembo v obetih, ki je posledica spremembe pri napovedniku za eno enoto • OR > 1: Napovednik, Verjetnost pojave dogodka . • OR < 1: Napovednik, Verjetnost pojave dogodka . x=1: Ψ2|1=(p2/q2)/p1/q1)=p2q1/p1q2
Prileganje modela in natančnost napovedovanja: Funkcija verjetja (višja vrednost boljše prileganje, vendar zelo majhne vrednosti) -2lnV (-2log-likelihood): odstopanje podatkov od modela Razlika med dvema gnezdenima modeloma v -2lnV = devianca ~ 2 (df = razlika v številu parametrov) Uporaba deviance: vključevanje napovednikov. Velikost učinka/ov: Mere, analogne R2 (% zmanjšanja -2lnV)
Primer: PISA – naravoslovna kariera in interes za učenje naravoslovja
Povzetek • Skupno prileganje (overallfit) končnega modela je prikazan z −2 log-likelihood statistiko • Če je pomembnost hi-kvadrata manj kot .05, potem imam model pomembno prileganje podatkom • Preglej tabelo Variables in the equation, da vidiš, katere spremenljivke pomembno napovedujejo izid • Uporabi razmerje obetov, Exp(b), za interpretacijo • OR > 1, potem se ob naraščanju napovednika obeti, da se izid pojavi, povečujejo. • OR < 1, potem se ob naraščanju napovednika obeti, da se izid pojavi, zmanjšujejo. • Interval zaupanja OR ne sme iti preko 1! • Preglej tabelo labelled Variables not in the equation, da vidiš, katere spremenljivke ne napovedujejo izida pomembno
Pomembni predpostavki: • Neodvisno vzorčenje. • Linearnost odnosa med X in logit(Y). • Preverjanje: npr. z delitvijo v razrede. • Preveriti tudi, da -2lnV < št. parametrov, sicer lahko prenizke SE
Priporočena dodatna literatura: Košmelj, K. (2001). Osnove logistične regresije.Dostopno na: http://stari.bf.uni-lj.si/statistika/logisticna_regresija_1.pdf http://stari.bf.uni-lj.si/statistika/logisticna_regresija_2.pdf Field, A. (2009). Discoveringstatisticsusing SPSS (3rd ed.). London: Sage. Poglavje 8.
Logistična regresija • Primer: • Kakšna je verjetnost, da boste zaključili podiplomski študij? ]:-] • Spremenljivke: • Aktivnost - aktivnost, v katero je (bil) vključen posameznik (šport, glasbilo, jezik). • Opravil – Posameznik je oziroma ni zaključil študija. • Energija - dosežek na lestvici energija na BFO, • Čustv_s - dosežek na lestvici čustvena stabilnost na BFO, • Vestnost - dosežek na lestvici vestnost na BFO, • Sprejemlj - dosežek na lestvici sprejemljivost na BFO, • Odprtost - dosežek na lestvici odprtost na BFO, • RPM - dosežek na testu inteligentnosti.
Logistična regresija Analyze – Regression – Binary Logistic… ali Multinomial Logistic…
Logistična regresija Pogovorno okno binarne logistične regresije…
Logistična regresija Pogovorno okno Categorical…
Logistična regresija Pogovorno okno Save New Variables…
Logistična regresija Pogovorno okno Options…
Logistična regresija Izpis…
Logistična regresija Izpis…