1 / 27

Metode cantitative avansate de cercetare sociala

Metode cantitative avansate de cercetare sociala. Tema 3-4: Analiza cluster (partea a 2-a) Bibliografie: Manual, Capitolul 5 Mark S. Aldenderfer, Roger K. Blashfield, Roger K. 1984. Cluster Analysis. Newbury Park, Ca.: Sage Publications. [Biblioteca Stiinte Politice]. Recapitulare:.

merton
Download Presentation

Metode cantitative avansate de cercetare sociala

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metode cantitative avansate de cercetare sociala Tema 3-4: Analiza cluster (partea a 2-a) Bibliografie: Manual, Capitolul 5 Mark S. Aldenderfer, Roger K. Blashfield, Roger K. 1984. Cluster Analysis. Newbury Park, Ca.: Sage Publications. [Biblioteca Stiinte Politice]

  2. Recapitulare: • Analiza cluster:nume generic pentru o varietate de proceduri statistice care au ca scop gruparea unei populatii de obiecte in functie de un set de caracteristici stabilite in acord cu premizele teoretice, astfel incit sa se obtina grupuri de obiecte similare, cit mai omogene internsi cit maieterogene extern. • Puncte critice de rezolvat: *stabilirea variabilelor de grupare *definirea unei masuri de similaritate relevante *specificarea algoritmului de grupare

  3. (cont.) • Algoritmi de grupare: • 1. Metode ierarhice aglomerative: * cum definim distanta intre doua grupuri? * cind oprim algoritmul? = numarul final de grupuri • 2. Metode de partitionare iterative (urmeaza):

  4. (cont. – metode ierarhice aglomerative) • Distanta intre doua grupuri: *single linkage;[nearest neighbour] *complete linkage; [furthest neighbour] *average linkage between groups; *average linkage within groups (distanta medie in grupul rezultant); *centroid (distanta intre centroide); *Ward (varianta grupului rezultant)

  5. Algoritmi de grupare metode de partitionare iterative: • (b) Metode de partitionare iterative. -nu au forma arborescenta; pornesc de la o impartire (partitionare) initiala a obiectelor intr-un numar specificat de grupuri, k. *Se calculează centroidul fiecăruia dintre grupuri (centrul de cluster). Fiecare obiect e alocat grupului cu centroidul cel mai apropiat un nou set de k grupuri. Se recalculează centroizii noilor grupuri. Se repetă procedura – realocarea obiectelor în raport cu noii centroizi – până cînd nu se mai produc schimbări în componenţa grupurilor.

  6. (cont.) • (i) se porneşte direct de la k puncte care joaca rolul de “centri iniţiali de cluster” (cluster seeds). În raport cu aceştia se va calcula prima partiţie în grupuri (parallel threshold method). • (ii) se selectează initial doar un singur punct ca centru iniţial de cluster, şi se formează un grup din toate obiectele care se află la o distanţă specificată de acesta. Apoi se va alege un al doilea centru de cluster, şi se formează un al doilea grup din toate obiectele aflate la distanţa respectivă de el. Dacă un obiect a intrat deja într-un grup, el nu va fi considerat pentru grupurile următoare. Se continuă astfel până se obţin k grupuri. Mai departe se urmează algoritmul general descris mai sus (sequential threshold method).

  7. (cont.) • Avantajele metodelor de partitionare iterative fata de cele ierarhice aglomeratice: *semnificativ mai putine calcule – nu e nevoie ca la fiecare aglomerare sa se calculeze distantele intre toate perechile de obiecte posibile. *multimea de obiecte este parcursa de mai multe ori, nu doar o singura data, permitind imbunatatirea solutiei. *grupurile obtinute sunt “independente”, nu sunt rezultatul amalgamarii a doua grupuri anterioare.

  8. 2. Metode de partitionare iterative: * cum stabilim numarul de grupuri (k)? * cum alegem centrii de grupuri initiali?

  9. Stabilirea numarului de grupuri: • Examinarea distanţelor între clusteri la paşi succesivi (metode ierarhice aglomerative): când creşte brusc, înseamnă că la pasul respectiv (să zicem pasul p) sunt unite două grupuri sensibil diferite.  numarul de grupuri final va fi N-p. • În cazul metodelor de partiţionare iterativă, distanţa între centroizi este un indicator al similarităţii grupurilor. Dacă aceasta este foarte mică pentru două grupuri, atunci putem considera unirea celor două grupuri într-unul singur. Putem examina si compara solutii cu numar de grupuri diferite.

  10. Centrii grupurilor initiale: • * pot fi fixati de noi astfel incit sa fie acoperita scala de variatie a variabilelor de grupare. • ** in SPSS pot fi produsi prin aplicarea procedurii de partitionare, si salvarea centrilor grupurilor rezultante. Acestia vor constitui centrii initiali de cluster intr-o noua aplicare a procedurii.

  11. Sugestii de buna practica: • Examinarea vizuala a datelor, in masura in care acest lucru e posibil, prin scatterplots. • Pentru o obtine o solutie buna vom folosi ambele tipuri de algoritmi: *pornim cu o metoda de grupare ierarhica, pentru a stabili numarul final de grupuri (k). *continuam folosind un algoritm de partitionare, pentru a obtine centrii de cluster, atunci cind nu avem un set initial formulat pe baza teoriei (NB: trebuie sa standardizam variabilele inainte: in SPSS Descriptives). *repetam analiza, folosind iar un algoritm de partionare, in care centrii initiali de cluster au fost obtinuti anterior.

  12. Interpretarea grupurilor: • Examinarea valorilor pe care le iau variabilele de grupare pentru obiectele din fiecare grup rezultat, pentru a înţelege natura grupurilor. • Analiza centroizilor.

  13. Exemplu: • Gruparea unui esantion de tari ale lumii in functie de nivelul de dezvoltare (World95.sav): *PIB/cap (gdp_cap) *rata natalitatii (birth_rate)

  14. Definitii ale distantei intre grupuri si rezultatele pe care le produc:

More Related