600 likes | 866 Views
Kvantitatiiviset tutkimusmenetelmät. Luento 4 Faktorianalyysi Kaisu Puumalainen. Yleistä. Tavoite. Tiivistää tietoa vähentämällä muuttujien lukumäärää
E N D
Kvantitatiiviset tutkimusmenetelmät Luento 4 Faktorianalyysi Kaisu Puumalainen
Tavoite • Tiivistäätietoavähentämällämuuttujienlukumäärää • Löytäämuuttujajoukostapiileviärakenteita – faktori on abstraktipiilevädimensio, jota yksittäisetmuuttujatilmentävät, vrt. Reflektiivinenmittareidenmuodostaminen • Keskeinenanalyysimenetelmäyhdistettyjenmittareidenmuodostamisessajavaliditeettitarkastelussa • Auttaahahmottamaanmitkämuuttujatvoisiyhdistääsamaansummamuuttujaan • Ryhmitelläänmuuttujia (tai havaintoja, Q-tyyppi) • Tyyppejä: • Pääkomponenttianalyysi • Eksploratiivinen faktorianalyysi • Konfirmatorinen faktorianalyysi
Perusidea Hyödynnetäänmuuttujienvälistäkorrelaatiotayhdistämälläkeskenäänvahvastikorreloivatmuuttujatyhdeksifaktoriksi Interdependence, korrelaatiotamuttaeikausaliteettia Esim. Yrityksenliikevaihtojayrityksenhenkilöstömääräkorreloivatvoimakkaastipositiivisesti, niidenvälinenregressiosuoravetääyhteensentiedonjokakummastakinsaadaan – molemmatkuvaavatyrityksentoiminnanmittakaavaa
Viidenmuuttujanesimerkki,korrelaatiotpallojenleikkauspintoinaViidenmuuttujanesimerkki,korrelaatiotpallojenleikkauspintoina 1 4 5 3 yhteinen varianssi, faktori 1 2 yhteinen varianssi, faktori 2
Vaiheet • Muuttujien valinta • Edellytysten tarkistus • Faktorointimenetelmän valinta • Faktoreiden määrän valinta • Rotaatio • Tulkinta • Validointi • Jatkoanalyysit
Muuttujienvalinta • Muuttujienoltavajatkuvia, mieluitenintervalli- tai suhdeasteikollisia. Likert ok • Eisyy- seuraussuhteessaoleviamuuttujiasamaanfaktorianalyysiin • Havaintoja on oltavaenemmänkuinmuuttujia, suositus 10-20 havaintoa/muuttuja, min 50 havaintoa, yleensäyli 100 • Lähteekorrelaatiomatriisista, jotentulisi olla suhteellisennormaalijakautuneita (ei outlier-havaintoja)
Edellytystentarkistus • Merkitseviäkorrelaatioitapitää olla (miel. runsaastiyli .3, suunnallaeiväliä) • jos faktorimalli on hyvä niin muuttujaparin väliset osittaiskorrelaatiot (kun muiden muuttujien vaikutus on eliminoitu) ovat pieniä • Measure of sampling adequacy (MSA) lasketaanosittaiskorrelaatioista, jasentulisi olla jokaisellamuuttujallavähintään 0.5 • Jos muuttujan MSA on huono, se voi johtua siitä että muuttuja korreloi vain yhden toisen muuttujan kanssa (kahden muuttujan faktori)
Edellytystentarkistus • Kaiser’sMeasure of SamplingAdequacyOverall –tunnusluku on MSA muuttujille kokonaisuutena, ja se kuvaa korrelaatiomatriisin soveltuvuutta faktorianalyysiin • MSA-arvo on sitä pienempi mitä suurempia osittaiskorrelaatiot ovat • Kaiserin ohjearvot • 0.9 marvelous • 0.8 meritorious • 0.7 middling • 0.6 mediocre • 0.5 miserable • alle 0.5 unacceptable
Osittaiskorrelaatio • Partial correlation • kahden muuttujan välinen korrelaatio, kun yhden tai useamman muuttujan vaikutus on poistettu (vakioitu) • Esim. jäätelon kulutus ja hukkumiskuolemien määrä korreloivat voimakkaasti. Korrelaatio johtuu siitä, että molemmat korreloivat lämpötilan kanssa. • mielekäs korrelaatio saadaan laskemalla osittaiskorrelaatio jäätelön kulutuksen ja hukkumiskuolemien määrän välillä, kun lämpötilan vaikutus on poistettu. • Myös osittaiskorrelaatio kuvaa muuttujien lineaarista yhteyttä, joka vaihtelee välillä -1 . . . +1 • Osittaiskorrelaatio voidaan yleistää useamman muuttujan samanaikaiseen vakiointiin
Osittaiskorrelaatio osittaiskorrelaatio x:n ja y:n välillä, kun z:n vaikutus on vakioitu osittaiskorrelaatio x:n ja y:n välillä, kun z:n ja w:n vaikutukset on vakioitu
Osittaiskorrelaatio, esim. x = yrityksen R&D-menot, k€ y = yrityksen nettotulos, k€ korrelaatio rxy= .70 Vau! Innovaatiopanostukset selittävät 49% yrityksen tuloksellisuudesta? z = yrityksen liikevaihto korrelaatiot rxz = .80 ja ryz = .75 osittaiskorrelaatio rxy.z = .25 Kun yrityskoon vaikutus otetaan huomioon, niin selittääkin 6.25% tuloksellisuudesta
Faktorointimenetelmän valinta • Muuttujien kokonaisvaihtelu (totalvariance) jaetaan faktoreihin • Pääkomponentti (principalcomponent) • Muuttujien yhteinen vaihtelu jaetaan faktoreihin + virhevaihtelu (common variance + unique, ”error” variance) • Pääakseli (principalaxis / principalfactor) • Maximumlikelihood • Alpha factoring
Pääkomponentit(principal components) Haetaan muuttujien lineaarikombinaatioita, tavoitteena tiedon tiivistäminen F1= a*x1+ b*x2 +….. F2= c*x1+ d*x2 +….. Faktoreita aluksi yhtä monta kuin muuttujia Ensimmäinen faktori selittää eniten muuttujien vaihtelusta, toinen toiseksi eniten jne. Kannattaa ottaa lopulta mukaan vain sellaiset faktorit jotka selittävät vaihtelusta enemmän kuin yksi yksittäinen muuttuja
Pääakselianalyysi(common factor analysis) Tiedetäänettä on olemassatiettypiileväkäsite tai ominaisuus Piileväominaisuus on syynäsiihenmiksiyksittäisetmuuttujatsaavattiettyjäarvoja Yksittäisenmuuttujanvaihtelujakautuukahteenosaan: Yhteinen (common), jokajohtuupiilevienominaisuuksiensaamistaarvoista Yksittäinen (unique, error), jokaeiriipumistäänpiilevästäominaisuudesta Muuttujatovatlineaarikombinaatioitafaktoreista + yksittäinenvirhevarianssi x1= a*F1+ b*F2 +….. +u1 x2= c*F1+ d*F2 +….. +u2
Montakofaktoria? • tarpeeksi vähän jotta tieto tiivistyy, mutta tarpeeksi paljon jotta alkuperäisestä tiedosta ei häviä liikaa • teorian perusteella, esim. replikaatiot • selitysosuus varianssista (percentage of varianceexplained, esim. 60%) • ominaisarvo (eigenvalue, latentrootcriterion) ykköstä suurempi (paras kun 20-50 muuttujaa) • faktoreiden tulkinta on mielekäs • screetest, screeplotista poikki kun viiva tasaantuu
Rotaatio ortogonaaliset (Varimax, Quartimax, Equimax) tuottavat keskenään korreloimattomia faktoreita vinorotaatiot (oblique) tuottavat korreloivia (patternmatrix) Factor 2 Factor 1
Tulkinta: lataukset • loadings • korrelaatio yksittäisen muuttujan ja faktorin välillä • vaihteluväli -1…+1 • latauksen neliö kertoo montako prosenttia faktori selittää muuttujan vaihtelusta • olisi hyvä että jokainen muuttuja saisi itseisarvoltaan suuren latauksen yhdellä ja vain yhdellä faktorilla, mieluiten >.5 • rotaatio helpottaa tulkintaa
Tulkinta: lataukset • katso ensin millä faktorilla kukin muuttuja saa suurimman latauksen, SAS osaa järjestää muuttujat niin että tämä on helppoa • jos muuttuja ei saa merkittävän suurta latausta millään faktorilla niin poista se • jos muuttuja saa isohkon samansuuruisen latauksen kahdella faktorilla niin kannattaa harkita poistamista • katso faktoreittain mitä yhteistä voisi olla siihen latautuvilla muuttujilla, se on faktorin nimi eli piilevä ominaisuus
Tulkinta: latauksenmerkitsevyys • käytännöllinen: min .3, mielellään .5 • tilastollinen: (lataus ja merkitsevyyteen tarvittava otoskoko) • .30 350 • .40 200 • .50 120 • .60 85 • .70 60
Tulkinta: kommunaliteetti • communalities • yksittäisen muuttujan tunnusluku, se osuus varianssista jonka faktorit selittävät • latausten neliöiden summa • vaihteluväli 0…1 • tulisi olla mahdollisimman suuri (yli .50) • jos on pieni niin muuttujalla on vähän yhteistä muiden muuttujien kanssa, ja se kannattaa jättää pois tarkastelusta tai tutkia erikseen
Validointi • jotta voisi yleistää on arvioitava ratkaisun stabiilisuutta • puolita aineisto satunnaisesti ja tee sama faktorianalyysi molemmille puoliskoille, samanlaisuutta voi myös analysoida tilastollisesti • Kokeile erilaisia faktorointi- tai rotaatiomenetelmiä • tarkista ettei ole outlier-havaintoja esim. scatterplotin avulla • käyttäytyvätkö faktoripistemäärät teorian mukaisesti
Jatkoanalyysit • faktoripistemäärät, kärkimuuttujat, summamuuttujat • voit käyttää faktoripistemääriä kuten mitä tahansa jatkuvaa normaalijakautunutta muuttujaa, esim. keskiarvotestit, korrelaatio, regressioanalyysi • muista että kaikkien faktoreiden keskiarvo on nolla, eli suoraan pistemääristä ei voi arvioida eri faktoreiden suhteellista merkitystä • Jos haluat säilyttää alkuperäisten muuttujien skaalan, käytä faktoripistemäärien asemesta muuttujien keskiarvona laskettua summamuuttujaa
SAS – factoring method Faktorointimenetelmän valinta Faktoreiden määrä, aluksi smallest eigenvalue 1, myöhemmin voit asettaa itse lukumäärän
Method: pääkomponetti (principal component), pääakseli (principal factor) ja maximum likelihood yleisimmin käytettyjä Number of factors: yleensä aluksi faktorit joilla ominaisarvo on suurempi kuin yksi (selittää enemmän kuin yksittäinen muuttuja keskimäärin), voit määrätä myös tietyn lukumäärän faktoreita, tai minimin selitysosuudelle varianssista SAS- factoring method
Pääkomponenttianalyysissa alustavat kommunaliteetit ovat aina ykkösiä Jos haluat käyttää pääakselimenetelmää sinun tulee edellä valita principal component ja tässä kohtaa valita kommunaliteetiksi joku muu vaihtoehto kuin ykköset, yleensä multippelikorrelaatiokertoimien perusteella (paljonko muut muuttujat selittävät kunkin muuttujan vaihtelusta) SAS- communality
Ortogonaaliset ja vinorotaatiot (oblique) ortogonaalinen tuottaa keskenään korreloimattomia faktoreita, isot lataukset suurenevat ja pienet pienenevät, esim. Orthogonalvarimax vinorotaatio tuottaa keskenään korreloivia faktoreita Plotfactorpattern piirtää kuvion latauksista screeplot: kunkin faktorin ominaisarvojen pieneneminen graafisesti SAS- rotation and plots
SAS - results Muista tähän oma kirjastosi Tämä tulkinnan helpottamiseksi Nämä edellytysten tarkistamiseksi
save output data- factors: tallentaa faktoripistemäärät uusiksi muuttujiksi uusien muuttujien keskiarvoksi tulee nolla, ja varianssiksi yksi (ovat standardoituja muuttujia) Reordermatrixrowsbyhighestabsoluteloading kannattaa valita tulkinnan helpottamiseksi, tällöin samalle faktorille latautuvat muuttujat ovat allekkain listassa Relatedstatistics antaa perustunnusluvut ja korrelaatiot muuttujille sekä MSA-luvut edellytysten arvioimiseksi SAS-results
SAS-tulostus Tarkista että kaikissa muuttujissa on tarpeeksi hajontaa, 1-5 asteikolla ”hyvä” keskiarvo 2,5 – 3,5 ja keskihajonta noin 1
SAS-tulostuskorrelaatiomatriisinloppu Löytyykö muuttujia jotka eivät korreloi merkitsevästi minkään kanssa
SAS-tulostus: osittaiskorrelaatiot Näiden olisi hyvä olla pieniä
SAS-tulostus: edellytystentarkistus Igo8 ja igo1 huonoja, muut ok > .60
SAS-tulostus: faktoreidenmääräjaselitysosuus 3 faktoria, joilla ominaisarvo >1. Ne selittävät yhteensä 64% muuttujien vaihtelusta
SAS-tulostus: muuttujienlatautuminenfaktoreille Rotatoimattomat lataukset, älä tulkitse vielä näitä
SAS-tulostus: faktoreidenselitysosuudet Sama kuin ominaisarvot, jotka näkyivät jo aiemmassa taulukossa
SAS-tulostus: muuttujienkommunaliteetit Lopulliset kommunaliteetit kertovat kuinka suuren osan kunkin muuttujan vaihtelusta 3 faktoria selittävät, igo2 ja igo3 hieman muita huonompia, yli 0.5 ok
SAS-tulostus: muunnosmatriisi Latausmatriisi kerrotaan tällä matriisilla, jotta saadaan rotatoitu latausmatriisi, tätä ei tarvitse tulkita mitenkään
SAS-tulostus: rotatoidutlatauksettästätulkitaanjanimetäänfaktorit
Faktoreiden tulkinta • Factor 1: international growth orientation – suuret arvot kuvaavat halua voimakkaaseen kansainväliseen kasvuun • Factor 2: status quo orientation – suuret arvot kuvaavat halua pitäytyä nykykoossa • Factor 3: lack of resources – suuret arvot kuvaavat resurssien riittämättömyyttä kasvuun • Huom! Negatiivinen lataus tarkoittaa, että väittämä korreloi negatiivisesti muiden samalle faktorille kuuluvien kanssa. Niitä ei voi sellaisenaan käyttää summamuuttujien laskennassa vaan ne on ensin uudelleenkoodattava
SAS-tulostus: selitysosuudet Rotaation seurauksena kunkin faktorin suhteellinen selitysosuus vaihtelusta voi hieman muuttua, tässä factor1 osuus laski ja muiden nousi vastaavasti