280 likes | 570 Views
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 3. predavanje: ponovitev bivariatne regresije Parcialna/semiparcialna korelacija Regresijska diagnostika. Ponovitev nekaterih osnovnih pojmov. Varianca v vzorcu ( s = standardni odklon)
E N D
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 3. predavanje: ponovitev bivariatne regresije Parcialna/semiparcialna korelacija Regresijska diagnostika
Ponovitev nekaterih osnovnih pojmov Varianca v vzorcu (s = standardni odklon) Varianca v (neskončni) populaciji: Ocena populacijske variance iz vzorčnih podatkov (“vzorčna varianca”) Vrednost napovedovane spremenljivke za i-to osebo: Yi Napovedana vrednost za i-to osebo: Napaka napovedi (ostanek) za i-to osebo: torej: Standardna napaka napovedi: SEY = e; če je e=0:
Dva vidika regresijske analize: • napovedovanje (npr.: “Kolikšno delovno uspešnost lahko napovemo kandidatu za delovno mesto? Kolikšno napako lahko ob tem pričakujemo?”) • pojasnjevanje (npr.: “S katerimi sposobnostmi in veščinami lahko pojasnimo razlike v uspešnosti? Kolikšen delež variance uspešnosti lahko pojasnimo?”) Kaj je merilo uspešnosti napovedovanja (…ciljna funkcija)? Najpogosteje: kriterij najmanjših kvadratov: min f (Y’ ) = e2 Nekaj implikacij k.n.k.: minimizira SEY “penalizira” velike napake napovedi e = M(e) = 0
“Prazni model”: 0 napovednikov Če uporabimo kriterij najmanjših kvadratov, napovedujemo le na osnovi porazdelitve Y in dobimo SEY = Y spomnimo se tudi, da (X-M) = 0 e = 0 Prazni model pomemben kot osnova za primerjavo.
1 napovednik: bivariatna regresija (pogojna aritmetična sredina) (Y|Xk) e~N(0,SE ) Če pogojne aritmetične sredine ležijo na premici: linearna regresija. (Y|Xj) (Y|Xi) XiXjXk Enačba premice: a = presečišče z ordinato (intercept) oz. regresijska konstanta = napovedana vrednost Y pri X=0 b = regresijski nagib (slope) = napovedano povečanje Y pri povečanju X za 1
Mere povezanosti / natančnosti napovedovanja (1) Kovarianca (Cov): informacija o povezanosti in variabilnosti Pearsonov r - standardizirana kovarianca - standardizirani regresijski nagib - povprečni produkt z vrednosti (“produkt-moment”)
Mere povezanosti / natančnosti napovedovanja (2) Koeficient determinacije r2 delež pojasnjene variance Standardna napaka SE: Indeks učinkovitosti napovedi EXY relativno zmanjšanje SE glede na prazni model Interpretacija r2, SE in EXY je enaka tudi pri multipli regresiji.
Parcialna korelacija = korelacija med dvema spremenljivkama, pri čemer kontroliramo enega ali več kovariatov. = korelacija med deli X in Y, ki so nekorelirani s kovariatom Z Uporaba: statistična kontrola motečih spremenljivk. Y X 1 2 3 5 6 4 7 Z (kovariat)
Izračun parcialne korelacije 1. Določimo regresijski enačbi X’ = aXZ+bXZZ in Y’ = aYZ + bYZZ 2. Izračunamo napake napovedi eX = X-X’ in eY = Y-Y’ 3. rXY.Z = r (eX , eY) Pri enem kovariatu: Statistična značilnost: enako kot r, df = N-2-(št. kovariatov) Semiparcialna korelacija: kovariat kontroliramo le pri eni spremenljivki (X ali Y ).
Primer parcialne korelacije: korelacija med ekstravertnostjo in nevroticizmom glede na starost rEN = 0,4 rES = -0,6 rNS = -0,5 Primer semiparcialne korelacije: Koliko variance učne uspešnosti pojasni od inteligentnosti neodvisen del SES? rUS = 0,3 rUI = 0,4 rIS = 0,5
Težave pri interpretaciji: • statistični učinek (effect) vs. vzročni vpliv • statistična značilnost vs. praktična pomembnost • koliko variance pojasni posamezen napovednik? • statistično značilni/neznačilni b v različnih modelih • predznak b ni enak predznaku r ( sestavljene spremenljivke ali preveč visoko koreliranih napovednikov) • supresorski odnosi (npr. mehanska in verbalna sposobnost ter uspešnost pilotov) • Regresijske parametre interpretiramo v kontekstu modela!
Regresijske predpostavke in diagnostika: • intervalen kriterij, intervalni ali dihotomni napovedniki • naključno vzorčenje / neodvisnost opazovanj • normalnost ostankov (npr. P-P graf) • linearnost odnosov (rezidualni graf) • homoscedastičnost (rezidualni graf) • Zlasti če MR pojasnjevalna metoda: • popolna zanesljivost napovednikov • specifikacija modela
Rezidualni graf: • napovedane vrednosti vs. ostanki • Vrste ostankov: • surovi (M = 0) • standardizirani (M = 0, Var = 1) • studentizirani (e/SEe manjši vpliv ekstremov) • izbrisani (ei določen brez osebe i )
Iskanje vplivnih točk • Cookova razdalja (oddaljenost od povprečja prediktorjev × napaka napovedi) • DFBETA: sprememba regr. koeficienta, če izločimo osebo • DFBETAS: standardizirana sprememba, (deljena s SE ) ; približna krit. vrednost: 2/(N1/2) - 3/(N1/2) jemati le orientacijsko, pazimo na relativno visoke vrednosti • DFFIT: sprememba napovedane vrednosti
Sestavljanje regresijskega modela • Hkrati vključimo vse relevantne napovednike (Enter) • “Hierarhično” vključevanje po vnaprej postavljenem vrstnem redu. • Postopno vključevanje po statističnih kriterijih: Forward, Backward, Stepwise. • Strategiji b in zlasti c lahko nevarni, če razmerje N/P ni veliko! Testi značilnosti predpostavljajo a.
Namen MR: napovedovanje kriterijske spremenljivke Y na osnovi p (= 2 ali več) napovednikov (X1- Xp) oz. y = Xb+(b+ = vektor parametrov a in b) Diagram poti: • Cilj MR: • določiti uteži b tako, da bo: • korelacija med Y in Y = max. • e2 = (Y –Y )2 = min. • Y = obtežena vsota napovednikov, ki najbolje napoveduje Y v smislu najmanjših kvadratov C X1 b1 a b2 X2 Y b3 X3
Izračun in interpretacija parametrov b+ = (X+X+)-1X+y oz. b = C-1c X+ = podatkovna matrika z dodanim vektorjem enic b+ = [ab1 … bp] b = [b1 … bp] C = kovariančna matrika napovednikov c = [Cov(Y,X1) … Cov(Y,Xp)] b1 = povečanje Y pri povečanju X1 za 1 enoto in nespremenjenih X2-Xp a = napovedana vrednost Y, ko velja X1=X2=… Xp= 0 potreben poln rang X!
Kako priti do optimalnih uteži? • Nekaj možnih načinov obteževanja: • bj = 1 … variabilnost napovednikov • bj = 1/sj… rYj (…lahko v redu, če so rYjpodobne) • bj = rYj/sj… r med napovedniki • 4. na bj mora torej vplivati: • variabilnost napovednikov (), • korelacija med napovednikom in kriterijem (), • korelacije z drugimi napovedniki (). Izračun pri p = 2:
Izpeljava regresijskih parametrov y = y + e Xb + e = y XXb + Xe = Xy //Xe = 0 (XX)–1(XX)b = (XX)–1Xy b = (XX)–1Xy
Standardizirani model (konstanta odpade – vse M = 0) • z vrednosti obtežimo s “koeficienti beta” • Interpretacija : • regresijski nagib za standardizirane spremenljivke; • relativna pomembnost gl. na ostale prediktorje. • pri nekoreliranih napovednikih: Yj = rYj • Pozor: • ||lahko > 1 • ni populacijska vrednost b • bolj odvisen od vzorčne variabilnosti kot b • ni isto kot delno standardizirani nagib (gl. AMSSD, str. 159)
Izračun beta koeficientov: = R–1r …nagib za standardizirane napovednike …standardizirani nagib Pri dveh napovednikih: (prim. obrazec za surovi nagib)
Primer: napovedovanje uspešnosti (U) na podlagi dveh testov (T1 in T2). Korelacije: Opisne statistike: stand.regresijska enačba: z’U = 0,094zT1 + 0,344zT2
Nestandardizirana enačba: U’ = 6,198 + 0,047 T1 + 0,115 T2
Višina povezanosti: multipla korelacija Definicija: Računanje: oz. oz. R in semiparcialne korelacije: Za dva prediktorja:
Na višino R vpliva: • korelacije prediktorjev s kriterijem () • korelacije med prediktorji (), • vplivne točke (/), • napaka merjenja (), • variabilnost v vzorcu gl. na populacijo (). • Velja tudi: • 0 ≤ R ≤ 1 • R≥ max. rYj • R ni izračunljiv, če |R|=0 (linearno odvisni prediktorji)
Korelacija med prediktorji in R 2: X1 1 2 3 Y 5 6 4 7 X2 X1 3 Y 1 3 2 X1 Y 5 6 6 1 4 7 X2 7 X2
Preberite tudi: • Sočan (2004). Postopki klasične testne teorije (PKTT), • dodatek A • Poglavje 4 • (po potrebi poglavje o linearni regresiji v katerem od splošnih učbenikov statistike) • Bartholomew et al. (2008). Analysis of multivariate social science data (AMSSD) • Poglavje 6 • poglavje o multipli regresiji najdete v skoraj vseh učbenikih multivariatnih metod in mnogih statističnih učbenikih