350 likes | 871 Views
Metode cantitative avansate de cercetare sociala. Tema 5-7: Analiza factoriala (II) Bibliografie: Capitolul 4 George H. Dunteman. 1989. Principal Components Analysis . Newbury Park, Ca.: Sage Publications.
E N D
Metode cantitative avansate de cercetare sociala Tema 5-7: Analiza factoriala (II) Bibliografie: Capitolul 4 George H. Dunteman. 1989. Principal Components Analysis. Newbury Park, Ca.: Sage Publications. Jae-On Kim, Charles W. Mueller. 1978a. Introduction to Factor Analysis. What It Is and How to Do It. Newbury Park, Ca.: Sage Publications. Jae-On Kim, Charles W. Mueller. 1978b. Factor Analysis. Statistical Methods and Practical Issues. Newbury Park, Ca.: Sage Publications. J. Scott Long. 1983. Confirmatory Factor Analysis. Newbury Park, Ca.: Sage Publications.
Recapitulare: Elementele critice intr-o analiza factoriala • Urmarim sa identificam structuri de corelatii puternice intre variabile, pe care le punem pe seama unor fatori latenti • Construim un model teoretic, un care variabilele observate Xi, i=1,m sunt determinate de factorii Fj, j=1,n. [n<m]. corelatiile pot fi exprimate in functie de de saturatii, pe care vrem sa le punem in acord cu corelatiile observate empiric baza de calcul a factorilor. • Factorii vor fi extrasi rind pe rind, astfel incit sa explice mai mult din varianta totala a variabilelor. [Nota: consultati prezentarea nr. 1, si prezentarile ppt de pe site-ul cursului.]
Realizarea unei analize factoriale 1. Definirea problemei de cercetare: 2. Matricea de corelaţie: existenţa unei corelaţii suficient de mari între variabile. • testul de sfericitate Bartlett • matricea de corelaţii anti-imagine • indicele Kaiser-Meyer-Olkin (KMO)
Realizarea unei analize factoriale 3. Extragerea factorilor. • Algoritmul de extragere porneşte de la ipoteza unui factor comun unic, după care se testează discrepanţa dintre matricea de corelaţii observate şi cea produsă prin model. Dacă testul este respins (discrepanţa dintre cele două seturi de corelaţii este prea mare din punct de vedere statistic), atunci se estimează… • un model cu doi factori. Acestui nou model i se aplică de asemenea testul discrepanţei dintre matricile de corelaţii. Dacă testul nu este trecut, se mai adaugă încă un factor şi se estimează… • un nou model. Acest algoritm continuă până când testul discrepanţei este trecut. • Există mai multe metode de extragere a factorilor, în funcţie de criteriile de testare a discrepanţei dintre cele două matrici de corelaţie. • (a) metoda celor mai mici pătrate – the least squares method, • (b) metoda probabilităţii maxime - the maximum likelihood method, • (c) metoda de extragere factorială Alpha – Alpha factoring, • (d) analiza imaginii – image factoring, • (e) metoda factorilor principali – principal axis factoring, • (f) metoda componentelor principale – principal component analysis.
Una din diferenţele conceptuale fundamentale între acestemetode, care distinge între analiza componentelor principale (f) şi toate celelalte, poate fi descrisă în felul următor. Varianţa totală a variabilelor observate poate fi descompusă astfel: • varianţa comună (comunalitatea), adică totalul varianţei variabilelor care se datorează factorilor comuni, • varianţa specifică (unicitatea), datorată factorilor unici, şi • eroarea introdusă de măsurare, eşantionare, culegerea datelor etc. • În analiza componentelor principale (principal component analysis) se va descompune întreaga varianţă a variabilelor. • În analiza factorială propriuzisă (principal axis factoring) se va descompune doar varianţa comună a variabilelor.
În analiza factorială încercăm să estimăm coeficienţii bik, adică saturaţiile factoriale pentru fiecare variabilă observată, având la dispoziţie coeficienţii de corelaţie r(Xi,Xk). • Vom pune condiţia ca matricea reziduală, adică diferenţa dintre matricea de corelaţie ajustată (R1) şi matricea de corelaţii rezultată (B BT), să fie cât mai aproape de zero, adică diferenţele dintre corelaţiile observate şi cele rezultate din modelul factorial, să fie minimizate. • Întotdeauna putem reproduce corelaţiile observate printr-un model care are exact atâţia factori câte variabile, iar adecvarea modelului pentru date creşte odată cu numărul de factori. Noi dorim: o structură redusă a datelor, explicarea covarianţelor dintre variabile printr-un număr cât mai mic de factori comuni. Primul factor extras va corespunde valorii proprii celei mai mari, cu alte cuvinte primul factor extras este cel care explică cel mai mult din varianţa variabilelor observate. Următorul factor extras va explica cât mai mult din restul de varianţă rămas neexplicat, şi aşa mai departe. La câţi factori ne oprim? De câţi factori avem nevoie pentru a reprezenta datele?
Oprim descompunerea varianţei în momentul în care factorul explică mai puţin decât varianţa unei singure variabile, adică atunci când valoarea proprie corespunzătoare factorului este mai mică decât 1. • Examinarea graficului care reprezintă valorile proprii (scree plot). • Altă soluţie este să stabilim un procent de varianţă care să fie explicat (în mod obişnuit acesta se alege 70% sau 80%), şi să ne oprim atunci când varianţa explicată de factori, cumulată, depăşeşte acest prag. • Unii autori sugerează că nu trebuie să ne bazăm automat pe astfel de criterii formale şi că numărul de factori obţinut prin aplicarea acestor teste trebuie să ne indice doar numărul maxim de factori. Factorii pe care îi vom reţine trebuie să fie substanţiali şi interpretabili teoretic (îndeosebi după rotaţie).
Realizarea unei analize factoriale 4. Rotaţia factorilor • Prin rotaţia factorilor încercăm să obţinem exact acest lucru. Prin transformări ale matricii de saturaţii iniţiale urmărim să ajungem la o matrice mai simplă, care să fie uşor de interpretat. Problema rotaţiei factorilor este o problemă de transformare a datelor într-un model factorial lipsit de ambiguităţi în ceea ce priveşte semnificaţia factorilor. Astfel, o transformare care să micşoreze complexitatea factorială a variabilelor şi să mărească gradul lor de determinare factorială ne-ar uşura substanţial înţelegerea, interpretarea, “numirea” factorilor. • Termenul de rotaţie denumeşte exact ceea ce implică: sistemul de axe ortogonale reprezentat de factori este rotit în jurul originii într-o altă poziţie.
Metode de rotaţie a factorilor: ortogonale şi oblice • Metoda ortogonală “varimax” urmează criteriul simplificării coloanelor matricii factoriale, maximizând varianţa dată de pătratul saturaţiilor pentru fiecare factor. Cu alte cuvinte, minimizează numărul de variabile cu saturaţii factoriale mari pentru fiecare factor, simplificând astfel interpretarea factorilor. • Metoda ortogonală “quartimax” foloseşte alt criteriu de simplificare, şi anume maximizează varianţa dată de pătratul saturaţiilor pentru fiecare variabilă. Prin aceasta se minimizează numărul de factori care explică fiecare variabilă (se reduce complexitatea factorială a variabilelor). • O metodă ortogonală care aplică ambele criterii de simplificare este “equamax”. Aceasta minimizează numărul de variabile care saturează un factor şi numărul de factori necesari pentru a explica varianţa unei variabile.
Realizarea unei analize factoriale 5. Interpretarea factorilor • În general interpretarea factorilor este facilitată atunci când variabilele saturează în mod semnificativ doar unul din factori. • Numele factorului şi definiţia sa nu pot fi date decât de cercetător. El este cel care va sintetiza conţinutul variabilelor care saturează un factor într-un concept denominat printr-o etichetă sau o descriere.
Realizarea unei analize factoriale 6. Scoruri factoriale, scale factoriale şi variabile surogat. • Odată identificate dimensiunile latente ale unui set de date, analistul poate dori să examineze comportamentul cazurilor în funcţie de aceste dimensiuni, şi nu doar în funcţie de variabilele date. Mai mult, el poate dori să obţină câte o variabilă pentru fiecare dintre aceşti factori, care să poată fi folosite în continuare ca variabile explicative în locul setului iniţial de variabile, mai numeros. • Există două opţiuni principale pentru a face acest lucru. • (1) Examinând matricea factorială (matricea saturaţiilor factoriale), analistul poate selecta variabila cu cel mai mare scor factorial pentru un anume factor ca reprezentativă pentru dimensiunea factorială respectivă (“variabilă surogat”). • (2) Analistul poate construi o scală factorială (o variabilă care să reprezinte factorul respectiv), dată de scoruri factoriale pentru fiecare obiect din eşantion.
Exemplu: Care sunt factorii cărora li se atribuie succesul în viaţă? Explicaţi utilizând setul de variabile vr1… vr10 din BOP 2003! Pentru ca o persoană din România de azi să reuşească în viaţă, cât de important este…. • rv1 … să se nască într-o familie bogată? • rv2 …. să aibă relaţii? • rv3 …să aibă noroc/şansă? • rv4 … să creadă în Dumnezeu? • rv5 … să fie deşteaptă/inteligentă? • rv6 … să arate bine? • rv7 … să facă şcoală? • rv8 … să muncească mult? • rv9 … să fure? • rv10… să ştie să se descurce? Variante de răspuns: 1. Foarte important 2. Important 3. Destul de important 4. Puţin important 5. Deloc important 8. NS (recodat ca missing value) 9. NR (recodat ca missing value) Există o varianţă comună în cazul acestui set de indicatori? Care variabile corelează între ele şi în ce măsură? Care sunt direcţiile corelaţiilor dintre variabile (pozitive sau negative)?
Observăm că există sub-seturi de variabile care corelează relativ puternic între ele. • Există factori latenţi care explică varianţa comună a sub-seturilor de variabile observate? Cu alte cuvinte, putem considera că există o tipologie a răspunsurilor şi factori latenţi care determină această tipologie? • Încercăm să realizăm o analiză exploratoriedeoarece nu ştim câţi factori avem, nici dacă aceştia corelează sau nu.
Un model simplu ar putea fi: r (rv1, F1) = b11 + b12 * r(F1,F2) r (rv1, F2) = b12 + b211 *r(F1,F2) Efect direct al lui F2 Efect indirect, mediat de F1 Corelaţiile dintre factori şi variabile sunt prezentate în matricea structură (Structure Matrix)din SPSS output. rv1 U1 F1 rv2U2 . F2. . rv10U10 VAR (rv1) =b112+ b122 + b11 * b12 * 2r(F1, F2) - d12 Comunalitatea lui rv1 (partea din varianţă explicată de factori) Ceea ce rămâne ne-explicat de factori din varianţa lui rv1 b11 este saturaţia lui F1 (factor loading F1) iar b12 este saturaţia lui F2(factor loading F2). Aceste saturaţii sunt prezentate în matricea saturaţiilor factoriale (Factor Matrix sau Factor Loadings Matrix) din SPSS output. Dacă noi alegem un model în care factorii sunt independenţi, atunci corelaţiile dintre factori şi variabile se reduc la efectele directe, deci sunt identice cu saturaţiile (factor loadings).
Extracţia factorilor: Construim un model al relaţiilor dintre factori şi variabile astfel încât diferenţa dintre corelaţiile observate şi cele re-construite (reproduced correlations) să fie cât mai mică.
Extracţia factorilor: Diferenţa dintre corelaţiile observate şi cele re-construite (reproduse) este măsurată ca suma pătratică a diferenţelor şi interpretată ca o măsură de tip CHI-pătrat. Se testează semnificaţia statistică a diferenţelor pe baza distribuţiei lui CHI-pătrat. Avem o diferenţă statistic semnificativă între matricea corelaţiilor observate şi matricea corelaţiilor reproduse. Modelul nostru simplifică considerabil realitatea – complexitatea relaţiilor dintre variabile. Cum au fost extraşi factorii?
Rezultatele extracţiei factorilor: Testul de adecvare a eşantionării ne arată că analiza este statistic semnificativă. Există o diferenţă statistic semnificativă între matricea corelaţiilor dintre variabile şi matricea unitate. Avem o şansă apropiată de zero (sig.=0.000) de a obţine această valoare a lui HI-pătrat dacă variabilele supuse analizei nu ar fi corelate între ele. 37,8% din varianţa primei variabile este datorată corelaţiilor (covarianţei) din setul de date. (comunalitatea iniţială a primei variabile este 0,378). În urma extracţiei factorilor, 58% din varianţa primei variabile este explicată de factorii in model (comunalitatea extrasă este 0,580).
Primul factor explică 27,8% din varianţa comună totală a variabilelor, iar cel de-al doilea 17,8%. Cumulat, primii doi factori extraşi explică 45% din varianţa comună totală a variabilelor. Pentru soluţia factorială iniţială, suma pătratelor saturaţiilor factoriale este 2,176 pentru F1 şi 1,229 pentru F2. Factorul F1 explică 21,5% din varianţa totală a variabilelor, iar F2 12,8%. Cumulat, pătratul saturaţiilor factoriale constituie 34% din varianţa totală a variabilelor. După rotaţia factorilor, suma pătratelor saturaţiilor este 1,803 pentru F1 şi 1,601 pentru F2. Observăm că proporţia de varianţă totală explicată cumulat de F1 şi F2 nu se schimbă în urma rotaţiei factorilor (este tot 34%!). Se schimbă valoarea saturaţiilor pentru fiecare factor, dar NU se schimbă suma pătratelor acestor saturaţii. Primul factor explică varianţa corespunzătoare a 2,78 variabile, iar factorul al doilea varianţa a 1,78 variabile. Toţi ceilalţi factori extraşi explică mai puţin decât varianţa unei unei variabile. Soluţia factorială optimă este cea cu doi factori extraşi.
Soluţia (modelul) factorial iniţial: • Acest model este destul de dificil de interpretat. • Oare nu am putea redistribui varianţa comună explicată de factori a întregului set de variabile astfel încât modelul relaţiilor dintre factori şi fiecare dintre variabile să fie cât mai clar şi adecvat unei interpretări teoretice? • Aceasta este problema rotaţiei factorilor.
Dacă presupunem că factorii sunt independenţi, atunci sistemul de axe este ortogonal iar saturaţiile factorilor sunt egali cu coeficienţii de corelaţie Pearson dintre variabile şi factori. Corelaţia dintre factori: rF1F2=F1*F2* cos 90˚ = F1 *F2 * 0 = 0. Putem roti soluţia factorială păstrând independenţa (ortogonalitatea) factorilor. Noi nu cunoaştem lungimea vectorilor, doar valoarea coeficientului de corelaţie. Acesta poate fi descompus în funcţie de saturaţiile factorilor: rX1 X2 = b11 * b21 + b12 * b22 + b11 * b22 * rF1F2 + b21 * b12 * rF1F2 Dacă factorii sunt ortogonali, atunci rX1 X2 = b11 * b21 + b12 * b22
Dacă presupunem că factorii sunt corelaţi, atunci sistemul de axe NU este ortogonal, ci oblic. Saturaţiile factorilor (efectele directe ale fiecărui factor) vor diferi de coeficienţii de corelaţie dintre factori şi variabile, pentru că o parte din corelaţie se datorează corelaţiei dintre factori (efecte indirecte ale factorilor prin ceilalţi factori). Corelaţia dintre factori: rF1F2=F1*F2* cosα Putem roti soluţia factorială presupunând că factorii corelează (rotaţie oblică). rX1 X2 = b11 * b21 + b12 * b22 + b11 * b22 * rF1F2 + b21 * b12 * rF1F2 Saturaţiile factorilor (b11, b21 – pentru F1, b12, b22 – pentru F2 etc.) vor fi egale cu coeficienţii de corelaţie parţiali, obţinuţi prin controlarea efectelor celorlalţi factori. Saturaţiile pot fi interpretate ca şi coefienţi de regresie multineară standardizaţi (beta).
rX1 X2 = b11 * b21 + b12 * b22 + b11 * b22 * rF1F2 + b21 * b12 * rF1F2 efectul efectul efectele indirecte direct al lui F1 direct al lui F2 datorate corelaţiei dintre F1 şi F2 Varianţa = comunalitatea + varianţa datorată factorului unic U VAR (X1) =b112+ b122 + b11 * b12 * 2 r F1F2 - d12 Dacă presupunem că factorii nu sunt corelaţi, atunci matricea de structură (Factor Matrix sau Structure Matrix) care prezintă corelaţiile dintre factori şi variabile va fi identică cu matricea saturaţiilor (Pattern Matrix sau Pattern Loadings). Dacă factorii sunt corelaţi, atunci acestea au atât efecte directe asupra variabilelor (prezentate în matricea saturaţiilor Pattern Matrix sau Pattern Loadings) cât şi efecte indirecte.
Corelaţiile dintre factori şi variabile conform soluţiei iniţiale. După rotirea factorilor, observăm că variabilele “să facă şcoală”, “să muncească”, “să fie inteligentă” corelează puternic cu primul factor, iar variabilele “să aibă relaţii”, “să se nască într-o familie bogată”, “să aibă noroc” cu cel de-al doilea factor. Celelalte variabile corelează doar moderat cu factorii, iar două dintre ele corelează aproximativ la fel cu ambii factori extraşi.
Dacă renunţăm la condiţia de independenţă a factorilor şi realizăm o rotire “oblică” atunci matricea de structură (Factor matrix) va fi diferită de matricea saturaţiilor (Pattern Matrix sau factor Loadings Matrix). Corelaţia dintre factori este slabă, coeficientul de corelaţie a lui Pearson ia valoarea 0.233. În acest caz, este de preferat soluţia factorială ortogonală deoarece dimensiunile sugerate de cei doi factori sunt distincte şi (teoretic) independente. Corelaţia slabă dintre factori, identificată prin rotirea oblică, ne arată că modelul oblic nu diferă considerabil de cel ortogonal.
Interpretare? • Primul factor reflecta dimensiuneaefortului personal (educaţie, muncă, inteligenţă) pentru a reusi in viata, iar cel de-al doilea factor, a contextului social (relaţii, a fi născut într-o familie bogată, a avea noroc). • Am putea construi doi indecşi, care sa reflecte acesti doi factori: • 1. efortul personal (achieved) – Index efort • 2. elementecontingente, ce nu ţin de individ (ascribed, contextual) – Index factori externi • Cum să construim aceşti indecşi? • Scale aditive simple, care nu ţin seama de intensitatea relaţiilor dintre factori şi variabile. • Index efort= să facă şcoală + să muncească mult + să fie deşteaptă • Index factori externi = să aibă relaţii + să se nască într-o familie bogată + să aibă noroc • Putem păstra valorile iniţiale ale varibilelor, sau le putem recoda în variabile dihotomice, unde 0 înseamnă “nu e important” şi 1 “important”.
Scoruri factoriale II. Construirea unor scale aditive ce ţin seama de intensitatea relaţiilor dintre variabile şi factori şi acordă ponderi diferite variabilelor. Având în vedere că variabilele observate indică mai puternic sau mai modest dimensiunea latentă (factorul) cercetat, acestea capătă ponderi (weights) diferite în indicele final. “Ponderea” este dată de un scor (un număr) cu care multiplicăm valoarea variabilei respective pentru fiecare caz (individ statistic). Acest scor ne este furnizat în urma analizei factoriale şi apare ca o nouă variabilă în baza de date (cu valori diferite pentru fiecare obiect din eşantion). Scorul poate fi determinat prin mai multe metode: • Metoda regresiei. Scorul este o estimată a coeficientului de regresie dintre factor şi variabilă. Se caută obţinerea unui factor Festimat astfel încât corelaţia dintre factorul latent F şi variabilă să fie maximă. • Metoda Bartlett. Varianţele datorate factorilor de unicitate sunt considerate erori de eşantionare, deci drept aleatoare. Se acordă astfel scoruri mai scăzute variabilelor care prezintă erori mai mari prin împărţirea la erori. • Metoda Rubin-Anderson. Utilizează aceeaşi procedură de estimare a diferenţei pătratice dintre factorii estimaţi şi variabilele observate, dar pune condiţia că factorii estimaţi sunt ortogonali doi câte doi.
Contruirea unor indici (scale) aditive Conform modelului nostru: Să facă şcoala = 0.78*F1 – 0.13*F2 + U1 Să muncească mult =0.67*F1 + U2 Să fie deşteaptă = 0.64*F1 + U3 Să creadă în Dumnezeu=0.34*F1+0.1*F2 ….. Index efort personal = rv7*score_F1 + rv8*score_F1 + rv5*score_F1 Index factori externi = rv2*score_F2 + rv1*score_F2 + rv3*score_F2 Celelalte variabile nu au o apartenenţă clară la nici unul dintre cei doi indecşi.