210 likes | 427 Views
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 7. predavanje: analiza glavnih komponent ( principal component analysis ) Preberite: Sočan, G. (2004). Postopki klasične testne teorije . Ljubljana: FF UL. ( poglavje 5 in dodatek B). Namen:
E N D
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 7. predavanje: analiza glavnih komponent (principal componentanalysis) Preberite: Sočan, G. (2004). Postopki klasične testne teorije. Ljubljana: FF UL. (poglavje 5 in dodatek B)
Namen: večje število spremenljivk nadomestimo z manjšim številom njihovih obteženih vsot (komponent). Zmanjšanje kompleksnosti + struktura odnosov Komponentni “model”: Kk = b1kX1 + b2kX2 + … + bnkXn oz. K = XB (Lahko tudi standardizirane spremenljivke -> K = ZB) Xi = ai1K1 + ai2K2 + … aikKk oz. X = KA´ • Primeri uporab: • izračun skupnega dosežka, • grupiranje testnih postavk, • združevanje koreliranih napovednikov pri regresiji, • ortogonalizacija spremenljivk...
PCA izdela k nekoreliranih obteženih vsot n spremenljivk, ki pojasnijo največji možni delež celotne variance teh spremenljivk (tj. • komponente so obtežene vsote (prim. z regresijo); • zmanjšanje kompleksnosti: 1 k n; • optimalni povzetki (maksimizacija pojasnjene variance); • optimalnost velja pri vsakem k; • nekoreliranost komponent. • Želja: visok %Var z majhnim k… • Merska lestvica komponent arbitrarna (npr. z).
Grafični prikaz za dve spremenljivki K1∝ izpit+vaje K2∝ izpit-vaje d = vsota kvadriranih razdalj posameznih točk od premice a = varianca projekcij teh točk na to premico (te projekcije so nestand. vrednosti K1) K1: Min. Var (d) Max. Var (a) Glavna os regresijska premica!
Vhodni podatki Korelacijska oz. kovariančna matrika ( ali želimo, da variabilnost vpliva na rezultate?) Korelacije med spremenljivkami ne smejo biti prenizke! Intervalne spremenljivke (izračun r oz. Cov smiseln). Velikost vzorca? Odvisno od namena analize in pojasnjevalne moči komponent… PCA je predvsem opisovalna analiza (vezana na vzorec).
Primer: 9 testov sposobnosti. Rezultate želimo povzeti z 2 komponentama. Vhodni podatki: korelacije (arbitrarne merske lestvice testov).
Glavni rezultati: 1. matrika uteži A (loadings, “nasičenosti”): stand. uteži so korelacije med spremenljivkami in komponentami; interpretacija komponent 2. matrika koeficientov komponentnih dosežkov B – uteži za izračun vrednosti komponent definicija komponent Vrednosti ai povezane z rij Interpretacija A gl. na vzorec korelacij. V posameznem stolpcu A oz. B lahko zamenjamo vse predznake (obrnjena interpretacija!)
Matrika uteži za naš primer: K1 ~ mera splošne inteligentnosti K2 ~ mera razlike med besedno in nebesedno sposobnostjo
Pojasnjena varianca spremenljivk: diag(AA) Reproducirane korelacije: AA (razen diagonale) Skupna pojasnjena varianca za komponento i (lastna vrednost, i): AA Primeri: pVar(VERB) = 0,9092 + (-0,190)2 = 0,863 1 = 0,9092 + 0,8202 + 0,7092 + … + 0,5702 = 5,432 Var(K1) = 1/n = 5,432/9 × 100= 60,4%
Koeficienti komponentnih dosežkov: B = AL-1 (pri nerotiranihkomp.!) L = diagonalna matrika lastnih vrednosti) npr. bverb,1 = 0,909/5,432 = 0,167 Izračun komponentnih dosežkov: K1 = z(VERB)0,167 + z(ANG)0,151 + … + z(PROST3)0,105
Koliko komponent uporabiti (= to extract, “izločiti”)? • Ni “resničnega” števila komponent: • parsimoničnost vs. izčrpnost opisa podatkov! • enodimenzionalen test: k = 1; • ortogonalizacija spremenljivk: k = n; • sicer: • “graf drobirja” (scree-plot); • % pojasnjene variance; • interpretacija in uporabnost!
k = 2 k = 4
Rotacija komponent: • izboljšanje interpretabilnosti; • enakomernejša porazdelitev pojasnjene variance po komponentah. • Ponovno zavrtimo prostor, ki ga opisujejo samo obdržane komponente. • Odstotki pojasnjene variance spremenljivk in skupna pojasnjena varianca se ne spremenijo!
d = 1,1 Grafična rotacija: na sliki nasičenosti izberemo najboljši kot rotacije. Rotiramo pare komponent (pretvorbena matrika T):
Kot rotacije: Uteži po rotaciji (novo strukturno matriko Dobimo tako, da prvotno Pomnožimo s pretvorbeno): Ar = AT Korelacije med starimi (v vrsticah) in novimi (v stolpcih) komponentami:
Analitične rotacije: uporabimo objektiven kriterij. Pravokotne rotacije ohranijo nekorelirane komponente. “Standard”: Varimax (poenostavi interpretacijo komponent).
Poševnokotne rotacije komponent: • komponente po rotaciji korelirane; • skupaj pojasnijo enako variance kot pravokotne; • preprostejša interpretacija kot pri pravokotnih.
Še o poševnokotnih rotacijah… • Namesto matrike komponentnih uteži A imamo: • matriko regresijskih koeficientov za napovedovanje spremenljivk na osnovi komponent (pattern, P) in • matriko korelacij med spremenljivkami in komponentami (strukturna matrika, S), poleg tega pa še • matriko korelacij med komponentami () . • drugačno računanje pojasnjenih varianc: R SP´= PP´; • % pojasnjene variance po komponentah se ne seštevajo!
Primerjava strukturnih matrik po rotaciji: Varimax: r12 = 0 Oblimin: r12 = 0,50
Koef. komponentnih dosežkov po rotaciji: Br = BT. Korelacije med komponentnimi dosežki so enake korelacijam med komponentami.
Malo za šalo, malo zares: struktura lastnosti piva Znamke kot osebe! Nerotirani komponenti iz kovariančne matrike, %Var = 73% + 22% “Osebe” in spremenljivke opišemo z istimi komponentami!