Metode cantitative avansate de cercetare sociala

Metode cantitative avansate de cercetare sociala Tema 5-7: Analiza factoriala Bibliografie: Capitolul 4 George H. Dunteman. 1989. Principal Components Analysis. Newbury Park, Ca.: Sage Publications. Jae-On Kim, Charles W. Mueller. 1978a. Introduction to Factor Analysis. What It Is and How to Do It. Newbury Park, Ca.: Sage Publications. Jae-On Kim, Charles W. Mueller. 1978b. Factor Analysis. Statistical Methods and Practical Issues. Newbury Park, Ca.: Sage Publications. J. Scott Long. 1983. Confirmatory Factor Analysis. Newbury Park, Ca.: Sage Publications.

Exemple de probleme si intrebari la care putem raspunde aplicind asupra datelor o analiza factoriala • Conform Transparency International (2008), Romania se claseaza pe locul 70 (la egalitate cu Columbia) in privinta perceptiei coruptiei, cu un scor de 3.8, pe o scala de la 0 la 10, unde 10 inseamna “foarte curat”, iar 0 “foarte corupt”. • Cum este perceputa coruptia in Rominia de catre populatie? Cum se structureaza aceasta? Care sunt dimensiunile latente care o organizeaza? [E.g. coruptie la nivel inalt, coruptie la nivelul micilor functionari, coruptie generalizata]

(cont.) • Care sunt dimensiunile latente ale curiozitatii?, unde aceasta este masurata/ inregistrata prin raportarile (acord-dezacord pe o scala de 4 trepte) la un set mare de itemi care inregistreaza diferite situatii in care curiozitatea se manifesta: item 1: “Mi-ar placea sa stiu cum functioneaza acest mecanism.” sau item 2: “Mi-ar placea sa incerc feluri noi de mincare.”

(cont.) • Cum putem analiza urmatorul set de date despre increderea oamenilor in institutii si organizatii care le ordoneaza viata? Câtă încredere aveţi dvs. în …? Biserică; Preşedinţie; Guvern; Parlament; Justiţie; Armată; Poliţie; Primăria localităţii; Sindicate; Bănci; Mass media (TV, radio, presă); Organizaţii neguvernamentale; Ce ne spun datele despre conceptul de incredere? Cum se structureaza increderea populatiei in institutii?

(cont.) • Bateriile de itemi prin care se masoara diferite abilitati mentale reflecta, in realitate, un singur factor, ce este desemnat a fi “inteligenta generala”? Respectiv: Este, inteligenta, un concept unidimensional? Sau, mai degraba, inteligenta are mai multe dimensiuni latente? • Partidele contemporane pot fi reprezentate pe o singura axa a liberalismului? Sau aceasta notiune are mai multe dimensiuni latente, cum ar fi liberalismul economic si liberalismul social?

O definitie a analizei factoriale • Analiza factoriala se refera la un set de tehnici statistice, prin care un set substantial de date, ce descriu un concept, fenomen sau fapt social, sunt reduse la un numar de dimensiuni latente, neobservabile, care il structureaza. • Sumarizare si reducere a datelor; reducere a dimensionalitatii datelor; identificarea structurii latente (neobservabile, la un nivel abstract) a datelor (a conceptului sau fenomenului investigat); • Acesti factori latenti nu sunt observabili, sunt dedusi; este un efort de creativitate, dar si un efect al cunoasterii, sa ii identificam si intelegem.

Logica analizei factoriale Puncte critice la care trebuie sa raspundem intr-o analiza factoriala: - care dintre variabilele observate (itemi) indica aceeasi dimensiune latenta (acelasi factor)? – variabilele care compun aceeasi dimensiune latenta trebuie sa fie puternic corelate intre ele; - care este intensitatea asocierii dintre factorul latent şi fiecare variabilă observată care ii corespunde? - care este relatia dintre factorii latenţi? Sunt acestia independenti, sau coreleaza?

d1 X1 U1 F1 X2 U2 b11 Putem observa o corelaţie puternică între “încrederea în guvern” (X1) şi “încrederea în parlament”(X2), coeficientul de corelaţie al lui Pearson r(X1, X2)=0.846. Presupoziţia noastră: b21 d2 Analiza factorială poate fi asimilata cu realizarea uneiregresiia variabilei observate (variabila dependentă) asupra unui factor latent (variabila independentă, explicativă) pe care nu o putem însă măsura direct şi astfel trebuie să o construim, să o “extragem” din datele pe care le avem. X1= b11 * F1 + d1 * U1 X2= b21 * F1 + d2 * U2 În afară de factorul comun (F1), fiecare variabila prezinta o parte de unicitate, data de un determinant unic (U1 respectiv U2). Acestia sunt independenţi şi necorelaţi cu factorii. Adica: r(U1, U2)=0 r(U1, F1)=0, r(U2, F1)=0 Prima cifră indică variabila A doua cifră indică factorul

Cum poate fi exprimată varianţa lui X1 (încrederea în guvern)? X1= b11 * F1 + d1 * U1b11 se numeşte saturaţia lui F1 pentru X1 (factor loading sau pattern loading) şi este interpretat ca un coeficient de regresie standardizat BETA Var(X1) = b112* Var(F1) + d12* Var(U1) + 2b11*d1* Cov(F1,U1) Var (X1) = b211 * Var(F1) + d21* Var(U1)iar daca standardizam variabilele (le transformam liniar astfel incit media lor sa fie 0 si varianta lor sa fie 1) Var (X1) = b211 + d21 2. Care este corelaţia dintre variabilă măsurată şi factorul latent? Cov(F1,X1) = [ (F1i –media(F1))*(X1i – media (X1))] / N Cov(F1,X1) = b11 Var(F1) + d1 Cov(F1,U1) Cov(F1,X1) = b11 Var(F1) iar daca standardizam variabilele: Cov(F1,X1) = r(F1,X1) = b11 Partea de varianţă a lui X1 explicată de F1, numită comunalitate Partea de varianţă care se datorează determinantului unic

3. Cum poate fi exprimată corelaţia observată dintre X1 şi X2 pe baza corelaţiilor lor cu factorul F1? X1= b11 * F1 + d1 * U1 X2= b21 * F1 + d2 * U2 Cov(X1,X2) = [ (X1i –media(X1))*(X2i –media(X2) )] / N Cov(X1,X2) = b11 b21*Var(F1) +b11 d1*Cov(F1,U2) + b21 d1*Cov(F1,U1) + d1 d2*Cov(U1,U2) Cov(X1,X2) = b11 b21*Var(F1) adica, pt. variabile standardizate: r(X1, X2) = b11*b21 ! În analiza factorială, factorii sunt “extraşi” astfel încât corelaţiile re-construite dintre variabile pe baza corelaţiilor lor cu factorii latenţi să se apropie cât mai mult de corelaţiile observate. Corelaţiile observate sunt prezentate în matricea corelaţiilor bivariate (dintre variabile luate două câte două). SPSS calculează suma diferenţelor pătratice dintre corelaţiile observate şi cele obţinute (construite) pe baza modelului factorial şi se obţine astfel o măsură similară cu HI-pătrat. Aceasta testează adecvarea modelului factorial(the goodness of fit of the model). În practică este de preferat un model factorial mai simplu, chiar dacă acesta este mai puţin adecvat (există diferenţe semnificative între matricea corelaţiilor re-construite şi matricea corelaţiilor observate).

Ce presupoziţii putem face despre factorii latenţi? Corelaţia dintre X1 şi X2 se datoreazăîn întregime factorilor latenţi: I. Doi factori independenţi F1 X1 U1 X2 U2 X3 U3 F2 X4 U4 X5 U5 X1 şi X2 sunt standardizate, deci: media (X1) = media (X2)=0, iar X1 =X2=1. X1=b11*F1 + b12*F2+ d1U1 X2=b21*F1 + b22*F2+ d1U1 (Pentru demonstraţii, vezimanualul: pp. 86-94) În general: r(X1,X2)= b11* b21 + b12* b22 + b11* b22 * r(F1,F2) + b21* b12 * r(F1,F2) Dacă factorii sunt independenţir(F1,F2) =0, atunci r(X1,X2)=b11*b21+b12*b22 iar r(X1,F1) = b11respectiv r(X1,F2)=b12Var (X1) = b211+b212+ d21

II. Doi factori corelaţi (modele factoriale oblice): r (X1, F1) = b11 + b12 * r(F1,F2) r (X1, F2) = b12 + b21 * r(F1,F2) Efect direct al lui F2 Efect indirect, mediat de F1 Corelaţiile dintre factori şi variabile sunt prezentate în matricea structură (Structure Matrix)din SPSS output. X1 U1 F1 X2 U2 F2 X3 U3 Var (X1) =b112+ b122 + b11 * b12 * 2r(F1, F2) + d12 Ceea ce rămâne ne-explicat de factori din varianţa lui x1 (contributia determinantului unic) Comunalitatea lui X1 (partea din varianţă explicată de factori) b11 este saturaţia lui F1 (factor loading F1) iar b12 este saturaţia lui F2(factor loading F2). Aceste saturaţii sunt prezentate în matricea saturaţiilor factoriale (Factor Matrix sau Factor Loadings Matrix) din SPSS output. Dacă noi alegem un model în care factorii sunt independenţi, atunci corelaţiile dintre factori şi variabile se reduc la efectele directe, deci sunt identice cu saturaţiile (factor loadings).

Modele factoriale şi structuri de covarianţă • Modelul general despre care am vorbit până acum, în care m variabile observate sunt determinate de n factori, este unul particular, în sensul condiţiilor impuse asupra lui: factorii sunt ortogonali, variabilele de unicitate U1, U2, ..., Um sunt independente două câte două şi fiecare dintre ele este independentă de oricare dintre factorii F1, F2, ..., Fn. Dar forma lui ne indică încă câteva concepte necesare pentru înţelegerea logicii acestei tehnici. • Primul dintre acestea este cel de complexitate factorială a unei variabile, şi se referă la numărul de factori care au saturaţii nenule pentru variabila respectivă. Pentru modelul general, complexitatea factorială a unei variabile Xi este dată de numărul de saturaţii factoriale bi1, bi2, ..., bin semnificativ diferite de zero, adică de numărul de factori care determină variabila respectivă.

Al doilea concept ce trebuie înţeles este cel de grad de determinare factorială a variabilelor. Acesta ne va spune în ce măsură variabilele observate sunt determinate de factorul comun. Una din măsurile gradului de determinare factorială este proporţia de varianţă explicată de factorii comuni. Indexul de mai jos măsoară media proporţiei varianţei variabilelor observate explicată de factorii comuni (suma varianţei comune a fiecărei variabile explicată de factorii comuni, împărţită la numărul de variabile). • ( hi2) / m

3. Gradul de determinare a modelului: Principalele tipuri de nedeterminare • 1. Aceeaşi structură de covarianţă, saturaţii diferite. • 2. Aceeaşi structură de covarianţă, număr variabil de factori. • 3. Aceeaşi structură de covarianţă, mai multe tipuri de structuri cauzale. - Nedeterminările de tipul al treilea sunt rezolvate practic prin apelul la principiul adecvării modelului empiric la modelul teoretic. • Principiul simplităţii poate ajuta la rezolvarea celorlalte două tipuri de nedeterminare. Criteriul recomandat prin acest principiu este cel al simplităţii reprezentării. Principiul afirmă că este preferabil să avem un model cât mai simplu pentru descrierea realităţii, că o structură mai simplă este mai profitabilă decât una mai complexă.

Metode cantitative avansate de cercetare sociala