190 likes | 389 Views
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 2. predavanje: vnos in urejanje podatkov pregled podatkov pred multivariatno analizo ! manjkajoče vrednosti, osamelci, vplivne točke !. Tipi spremenljivk. kvantitativne (I, R) vs. kvalitativne (N) manifestne vs. latentne
E N D
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 2. predavanje: vnos in urejanje podatkov pregled podatkov pred multivariatnoanalizo ! manjkajoče vrednosti, osamelci, vplivne točke !
Tipi spremenljivk • kvantitativne (I, R) vs. kvalitativne (N) • manifestne vs. latentne • odvisne (kriterijske) vs. neodvisne (pojasnjevalne, prediktorji, napovedniki)
Urejanje podatkov • Podatkovna matrika: • osebe v vrsticah, spremenljivke v stolpcih • načelo “1 enota (oseba) – 1 vrstica” (par obravnavamo kot eno enoto) • najprej identifikacijska spremenljivka, nato splošne demografske spremenljivke, za tem vse ostalo • numerično kodiranje kvalitativnih spremenljivk (1/0 pri dihotomnih; 1=da) • jasna imena (zapišimo si natančen opis vsake spremenljivke!) • kode za manjkajoče vrednosti (potrebno sporočiti programu!) • vhodni podatki za MV analizo so lahko tudi druge matrike (npr. kovariančna matrika, matrika razdalj…)
Manjkajoče vrednosti (missing data) Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke. Preprečevati v procesu zbiranja podatkov. Ni preprostih dobrih rešitev – več o tem ob koncu semestra… Privzeto v SPSS: brisanje vseh oseb z manjkajočimi vrednostmi.
Nezaželene odvisnosti • A. odvisnost oseb: • Navadno posledica stopenjskega vzorčenja. • Ignoriranje ima lahko zelo resne posledice (neveljavnost stat. testov)! • Rešitev: večnivojski modeli. • B. odvisnost spremenljivk: • Nastane zaradi: • medsebojne pogojenosti odgovorov; • ipsativnega vrednotenja (npr. pri prisilni izbiri); • možnosti izbiranja nalog; • hkratne uporabe X, Y in aX+bY ipd., • hkratne uporabe (skoraj) identičnih spremenljivk. • Preprečiti v procesu zbiranja podatkov (1-3) oz. analize (4-5).
Pomen natančnega pregleda podatkov pri MV analizi: • - odkrivanje napak in motenj (težko razvidne iz rezultatov!) • preverjanje predpostavk (normalnost, linearnost, homoscedastičnost) • Osnovni pregled: • M, SD / AD, min, max • histogram / tabela frekvenčne porazdelitve • okvir z ročaji (boxplot) • razsevni diagrami (scatter-plot)
Npr.: Dihotomno (1/0) točkovana postavka: Postavka “Likertovega tipa” (1-5) V obeh primerih ima M “nevpadljivo” vrednost (0,67 oz. 3,30)!
r = 0,250 ...na prvi pogled v redu, toda… Če pravilno določimo kodo za manjkajočo vrednost: r = 0,048
Vpliv omejene variabilnosti na korelacijo: Mimogrede: sprememba merske lestvice ne vpliva na r!
Osamelci (ekstremne vrednosti, outliers) Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik v primerjavi z variabilnostjo) Problematični, ker lahko nesorazmerno vplivajo na M, SD oz. Var, r in b (ter ostale izpeljane statistike!) vplivne točke (influential observations) Univariatni in multivariatni osamelci Multivariatni: neobičajen vzorec povezanosti. Vsak uni- je tudi multi-, ne velja pa obratno! • Diagnostika: • slike (zaboj z ročaji za univar., razsevni diagram za bivar.) • “z > 3”, “X-Me >1,5(Q3-Q1)” ipd. (univariatni) • Mahalanobisova razdalja D (multivar.): posplošitev z2 na več spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 … • (pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki – velika razdalja pove, da je vrednost osamelec za prediktorje)
D = Mahalanobisova razdalja z(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk (v vseh primerih se povečata SD in spremenita M, vendar so razlike majhne)
Razlogi za nastanek osamelcev: • napake pri zbiranju podatkov • napake pri vnosu/manipulaciji podatkov • kodiranje manjkajočih vrednosti (tipična koda: -9999) • oseba ne pripada ciljni populaciji • oblika porazdelitve • Ukrepi: • popravek (2,3), • brisanje (1,4 potrebna utemeljitev!) • pretvorbe podatkov (5) • (bolj) robustne metode (5) • analiza z in brez osamelcev (5, 5?) preveriti, ali je osamelec tudi vplivna točka!
Normalnost porazdelitve • Ni nujen pogoj pri vsaki analizi! • Običajno najbolj problematična visoka sploščenost. • Preverjanje univariatne normalnosti: • P-P in Q-Q grafi, • koeficienta sploščenosti in asimetrije • testi normalnosti (npr. Shapiro-Wilk) • Multivariatna normalnost (MVN): • vse obtežene vsote spremenljivk so normalno porazdeljene • vse pogojne porazdelitve so normalne • univariatna n. je nujen, vendar ne zadosten pogoj za MVN • Preverjanje: • slabo razvito! Test MV sploščenosti in asimetrije (Mardia).
Linearnost povezav • implicira vsaj intervalno merjenje • pomembna pri analizah, ki temeljijo na r ali Cov • vzroki nelinearnosti: intrinzična nelinearnost ali oblika porazdelitve • diagnostika: pregled razsevnih diagramov in rezidualnih grafov • Homoscedastičnost (ant. heteroscedastičnost) • enaka variabilnost napak pri vsaki vrednosti X • enaka natančnost (napovedi) pri vsakem X • preverjamo z grafičnimi preizkusi (rezidualni graf)
“Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin r = 0 r = 0,71
Linearnost, homoscedastičnost in normalnost so lahko povezane:
Pretvorbe: • ploščinska normalizacija; • nelinearne funkcije, npr. koren, logaritem ali inverz. As=-0,82 Spl=1,36 As=-0,43 Spl=0,40 Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti, homoscedastičnosti in normalnosti, vendar navadno otežijo interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!
Kaj moramo torej preveriti, preden poženemo multivariatno analizo? • So podatki ustrezno vneseni? • Nepristne odvisnosti spremenljivk ali oseb? • Manjkajoči podatki? • Pregled univariatnih opisnih statistik in slik. • Multivariatni osamelci (outliers) in vplivne točke? • kjer vrsta analize to zahteva, pa še: • Oblika porazdelitve: normalnost, homoscedastičnost? • Linearni odnosi? • Je variabilnost vzorca primerljiva s populacijsko?