1 / 19

Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 2. predavanje:

Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 2. predavanje: vnos in urejanje podatkov pregled podatkov pred multivariatno analizo ! manjkajoče vrednosti, osamelci, vplivne točke !. Tipi spremenljivk. kvantitativne (I, R) vs. kvalitativne (N) manifestne vs. latentne

gore
Download Presentation

Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 2. predavanje:

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 2. predavanje: vnos in urejanje podatkov pregled podatkov pred multivariatnoanalizo ! manjkajoče vrednosti, osamelci, vplivne točke !

  2. Tipi spremenljivk • kvantitativne (I, R) vs. kvalitativne (N) • manifestne vs. latentne • odvisne (kriterijske) vs. neodvisne (pojasnjevalne, prediktorji, napovedniki)

  3. Urejanje podatkov • Podatkovna matrika: • osebe v vrsticah, spremenljivke v stolpcih • načelo “1 enota (oseba) – 1 vrstica” (par obravnavamo kot eno enoto) • najprej identifikacijska spremenljivka, nato splošne demografske spremenljivke, za tem vse ostalo • numerično kodiranje kvalitativnih spremenljivk (1/0 pri dihotomnih; 1=da) • jasna imena (zapišimo si natančen opis vsake spremenljivke!) • kode za manjkajoče vrednosti (potrebno sporočiti programu!) • vhodni podatki za MV analizo so lahko tudi druge matrike (npr. kovariančna matrika, matrika razdalj…)

  4. Manjkajoče vrednosti (missing data) Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke. Preprečevati v procesu zbiranja podatkov. Ni preprostih dobrih rešitev – več o tem ob koncu semestra… Privzeto v SPSS: brisanje vseh oseb z manjkajočimi vrednostmi.

  5. Nezaželene odvisnosti • A. odvisnost oseb: • Navadno posledica stopenjskega vzorčenja. • Ignoriranje ima lahko zelo resne posledice (neveljavnost stat. testov)! • Rešitev: večnivojski modeli. • B. odvisnost spremenljivk: • Nastane zaradi: • medsebojne pogojenosti odgovorov; • ipsativnega vrednotenja (npr. pri prisilni izbiri); • možnosti izbiranja nalog; • hkratne uporabe X, Y in aX+bY ipd., • hkratne uporabe (skoraj) identičnih spremenljivk. • Preprečiti v procesu zbiranja podatkov (1-3) oz. analize (4-5).

  6. Pomen natančnega pregleda podatkov pri MV analizi: • - odkrivanje napak in motenj (težko razvidne iz rezultatov!) • preverjanje predpostavk (normalnost, linearnost, homoscedastičnost) • Osnovni pregled: • M, SD / AD, min, max • histogram / tabela frekvenčne porazdelitve • okvir z ročaji (boxplot) • razsevni diagrami (scatter-plot)

  7. Npr.: Dihotomno (1/0) točkovana postavka: Postavka “Likertovega tipa” (1-5) V obeh primerih ima M “nevpadljivo” vrednost (0,67 oz. 3,30)!

  8. r = 0,250 ...na prvi pogled v redu, toda… Če pravilno določimo kodo za manjkajočo vrednost: r = 0,048

  9. Vpliv omejene variabilnosti na korelacijo: Mimogrede: sprememba merske lestvice ne vpliva na r!

  10. Osamelci (ekstremne vrednosti, outliers) Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik v primerjavi z variabilnostjo) Problematični, ker lahko nesorazmerno vplivajo na M, SD oz. Var, r in b (ter ostale izpeljane statistike!)  vplivne točke (influential observations) Univariatni in multivariatni osamelci Multivariatni: neobičajen vzorec povezanosti. Vsak uni- je tudi multi-, ne velja pa obratno! • Diagnostika: • slike (zaboj z ročaji za univar., razsevni diagram za bivar.) • “z > 3”, “X-Me >1,5(Q3-Q1)” ipd. (univariatni) • Mahalanobisova razdalja D (multivar.): posplošitev z2 na več spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 … • (pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki – velika razdalja pove, da je vrednost osamelec za prediktorje)

  11. Primer: osamelci v bivariatnem primeru 0 1 3 2

  12. D = Mahalanobisova razdalja z(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk (v vseh primerih se povečata SD in spremenita M, vendar so razlike majhne)

  13. Razlogi za nastanek osamelcev: • napake pri zbiranju podatkov • napake pri vnosu/manipulaciji podatkov • kodiranje manjkajočih vrednosti (tipična koda: -9999) • oseba ne pripada ciljni populaciji • oblika porazdelitve • Ukrepi: • popravek (2,3), • brisanje (1,4  potrebna utemeljitev!) • pretvorbe podatkov (5) • (bolj) robustne metode (5) • analiza z in brez osamelcev (5, 5?) preveriti, ali je osamelec tudi vplivna točka!

  14. Normalnost porazdelitve • Ni nujen pogoj pri vsaki analizi! • Običajno najbolj problematična visoka sploščenost. • Preverjanje univariatne normalnosti: • P-P in Q-Q grafi, • koeficienta sploščenosti in asimetrije • testi normalnosti (npr. Shapiro-Wilk) • Multivariatna normalnost (MVN): • vse obtežene vsote spremenljivk so normalno porazdeljene • vse pogojne porazdelitve so normalne • univariatna n. je nujen, vendar ne zadosten pogoj za MVN • Preverjanje: • slabo razvito! Test MV sploščenosti in asimetrije (Mardia).

  15. Linearnost povezav • implicira vsaj intervalno merjenje • pomembna pri analizah, ki temeljijo na r ali Cov • vzroki nelinearnosti: intrinzična nelinearnost ali oblika porazdelitve • diagnostika: pregled razsevnih diagramov in rezidualnih grafov • Homoscedastičnost (ant. heteroscedastičnost) • enaka variabilnost napak pri vsaki vrednosti X •  enaka natančnost (napovedi) pri vsakem X • preverjamo z grafičnimi preizkusi (rezidualni graf)

  16. “Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin r = 0 r = 0,71

  17. Linearnost, homoscedastičnost in normalnost so lahko povezane:

  18. Pretvorbe: • ploščinska normalizacija; • nelinearne funkcije, npr. koren, logaritem ali inverz. As=-0,82 Spl=1,36 As=-0,43 Spl=0,40 Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti, homoscedastičnosti in normalnosti, vendar navadno otežijo interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!

  19. Kaj moramo torej preveriti, preden poženemo multivariatno analizo? • So podatki ustrezno vneseni? • Nepristne odvisnosti spremenljivk ali oseb? • Manjkajoči podatki? • Pregled univariatnih opisnih statistik in slik. • Multivariatni osamelci (outliers) in vplivne točke? • kjer vrsta analize to zahteva, pa še: • Oblika porazdelitve: normalnost, homoscedastičnost? • Linearni odnosi? • Je variabilnost vzorca primerljiva s populacijsko?

More Related