290 likes | 604 Views
Metode cantitative avansate de cercetare sociala. Tema 10: Analiza de corespondenta. Bibliografie: Manual, Capitolul 7 Sten-Erik Clausen. 1998. Applied Correspondence Analysis. An Introduction. Thousand Oaks, Ca.: Sage Publications.
E N D
Metode cantitative avansate de cercetare sociala Tema 10: Analiza de corespondenta. Bibliografie: Manual, Capitolul 7 Sten-Erik Clausen. 1998. Applied Correspondence Analysis. An Introduction. Thousand Oaks, Ca.: Sage Publications. Jacqueline J. Meulman, Willem Heiser. 1999. SPSS Categories 10.0, SPSS Inc. Chicago IL. Susan C. Weller, A. Kimball Romney. 1990. Metric Scaling. Correspondence Analysis. Newbury Park, Ca.: Sage Publications.
Ce este analiza de corespondenţă? • Analiza de corespondenţă este o metodă de interdependenţă care descrie relaţia dintre două variabile categoriale şi relaţiile dintre categoriile lor (relaţii de asociere). • Scopul principal al analizei de corespondenţă este descoperirea structurii unui set de date conţinut într-un tabel de contingenţă.
Analiza de corespondenţă produce o reprezentare vizuală (geometrică) a relaţiei complexe dintre doua variabile categoriale, • o hartă perceptuală în care categorii cu distributii similare ocupă poziţii apropiate, iar categorii cu distributii diferite sunt aşezate în poziţii depărtate. • Categoriile sunt reprezentate ca puncte intr-un spatiu cu dimensionalitate redusa.
Explorarea şi descrierea datelor. • Nu are un model la bază (cum au, de exemplu, analiza factorială sau analiza de regresie liniară multiplă). • Nu există nici un fel de condiţii impuse variabilelor sau naturii datelor. (înafară de cerinţa ca datele - frecvenţele din tabelul de contingenţă, să fie numere pozitive)
Exemplu: X: “Cu ce partid ai votat la ultimele alegeri?” Y: “Femeile ar trebui sa poata face avort daca doresc acest lucru. Esti de acord sau nu cu acest lucru?”
Atitudine catre avort Partid Acord Dezacord Total Mase Conservatori 0.39 0.61 1 (737) 0.39 Liberali 0.60 0.40 1 (776) 0.41 NDP 0.74 0.26 1 (371) 0.20 Profil mediu pe 0.54 0.46 1 (188 4) linii Profile pe linii: X: “Cu ce partid ai votat la ultimele alegeri?” Y: “Femeile ar trebui sa poata face avort daca doresc acest lucru. Esti de acord sau nu cu acest lucru?”
Atitudine catre avort Partid Acord Dezacord Total Mase Conservatori 0.39 0.61 1 (737) 0.39 Liberali 0.60 0.40 1 (776) 0.41 NDP 0.74 0.26 1 (371) 0.20 Profil mediu pe 0.54 0.46 1 (188 4) linii Profile pe linii:
Atitudine catre avort Partid Acord Dezacord Total Mase Conservatori 0.39 0.61 1 (737) 0.39 Liberali 0.60 0.40 1 (776) 0.41 NDP 0.74 0.26 1 (371) 0.20 Profil mediu pe 0.54 0.46 1 (188 4) linii
Profile pe coloane: X: “Cu ce partid ai votat la ultimele alegeri?” Y: “Femeile ar trebui sa poata face avort daca doresc acest lucru. Esti de acord sau nu cu acest lucru?” Atitudine catre avort Partid Acord Dezacord Profil mediu pe coloane Conservatori 0.28 0.52 0.39 Liberali 0.45 0.36 0.41 NDP 0.27 0.12 0.20 Total 1 (1024) 1 (860) Mase 0.54 0.46
Atitudine catre avort Partid Acord Dezacord Profil mediu pe coloane Conservatori 0.28 0.52 0.39 Liberali 0.45 0.36 0.41 NDP 0.27 0.12 0.20 Total 1 (1024) 1 (860) Mase 0.54 0.46
Observatii: • Putem calcula distantele intre categorii cu o distanta asemanatoare celei euclidiene. • Putem reprezenta similaritatea dintre categorii in functie de distanta lor fata de profilul mediu.
Logica analizei de corespondenţă • Analiza de corespondenţă realizează o descriere a datelor cuprinse într-un tabel de contingenţă, desluşind structura latentă a datelor prin reducerea dimensionalităţii lor şi reprezentarea geometrică (vizuală) a categoriilor într-un spaţiu metric. • Analiza porneşte de la un tabel de contingenţă, adică de la tabularea a două variabile categoriale, una reprezentată pe linii, cealaltă pe coloane. Analitic, se prelucrează separat categoriile fiecăreia dintre variabile.
1. Se calculează profilurile categoriilor primei variabile (frecvenţele relative), care arată distribuţia categoriilor celeilalte variabile în rândul categoriilor primei variabile. Tot aici se calculează şi masele categoriilor primei variabile, care sunt proporţiile marginale ale categoriilor, şi ne arată ponderea lor în totalul obiectelor din eşantion. Acelaşi lucru se face şi pentru cea de-a doua variabilă. • 2. Se calculează distanţele între puncte, i.e. distanţele între categoriile variabilelor, reprezentate într-un acelaşi spaţiu metric. • În fine, la ultimul pas, se caută un spaţiu multidimensional care să acomodeze cel mai bine punctele şi distanţele dintre ele.
Fiecare categorie a unei variabile (de pe linie sau de pe coloană) poate fi interpretată ca fiind un vector (sau un punct) într-un spaţiu cu atâtea dimensiuni câte valori are profilul său (i.e. egal cu numărul de categorii ale celeilalte variabile), ale cărui coordonate sunt date de valorile profilului său. • Distanţa între două categorii se calculează de obicei ca distanţă hi pătrat între cele două puncte corespunzătoare.
Distanta intre puncte (categorii):distanţa hi pătrat Efectul ponderarii: categoriile cu observaţii puţine vor contribui relativ mai mult la distanţele dintre puncte decât categoriile cu mai multe observaţii, i.e. categoriile cu mai puţine observaţii tind să fie reprezentate mai departe de originea axelor de coordonate, iar cele cu mai multe observaţii tind să fie aşezate aproape de centrul configuraţiei. Centrul axelor de coordonate se numeşte centroid, şi este dat de profilul mediu (pe linii şi pe coloane respectiv).
Spaţiul redus în care vor fi reprezentate categoriile (de pe linii si coloane) va fi construit astfel încât să aproximeze cât mai bine distantele dintre puncte (categorii). • Analiza de corespondenta poate fi inteleasa si ca o analiza a componentelor principale pentru variabilele formate din profilele pe linii/ coloane ale categoriilor.
În analiza de corespondenţă conceptul de varianţă este definit în funcţie de distanţele hi pătrat şi poartă numele de inerţie. Inerţia totală este o măsură a împrăştierii profilelor categoriilor în jurul centroidului. (Varianţa este o măsură a împrăştierii punctelor în jurul mediei.) Inerţia totală se calculează în mod similar varianţei şi are următoarea formulă: unde di reprezintă distanţa hi pătrat dintre categoria i şi centroid (dintre punctul i şi centroid), iar ri este masa punctului i.
Figura 4. Configuraţia categoriilor variabilei “partid” într-un spaţiu bidimensional.
Figura 5. Configuraţia categoriilor variabilei “centru universitar” într-un spaţiu bidimensional.
Figura 6. Analiza de corespondenta dintre "partid" si "centru universitar" pentru Parlamentul României 1996-2000.