590 likes | 819 Views
Sveučilište u Zagrebu Filozofski fakultet Odsjek za psihologiju. PRIMJENA MULTIVARIJATNIH METODA tema: KLASTER ANALIZA. 1. Teorijska osnova i namjena klaster analize 2. Realni primjeri upotrebe klaster analize 3. Provo đ enje klaster analize u SPSS-u .
E N D
Sveučilište u Zagrebu Filozofski fakultet Odsjek za psihologiju PRIMJENA MULTIVARIJATNIH METODAtema:KLASTER ANALIZA
1. Teorijska osnova i namjena klaster analize 2. Realni primjeri upotrebe klaster analize 3. Provođenje klaster analize u SPSS-u
Naziv klaster analiza odnosi se na vrstu multivarijatnih tehnika statističke analize kojom se nastoje utvrditi (identificirati i analizirati) relativno homogene grupe objekata (ili varijabli). Kao i faktorska analiza služi za racionalnu empirijsku klasifikaciju varijabli i doprinosi uvidu u strukturu latentnih faktora koji se nalaze u usnovi manifestnih varijabli.
Koristi se u različitim granama znanosti za kategorizaciju odnosno klasifikaciju pojedinih jedinica analize (objekata ili ispitanika) obzirom na njihovu sličnost odnosno različitost prema nekim njihovim mjerenim obilježjima.
Iako se i diskriminacijska analiza i klaster analiza odnose na problem klasifikacije objekata ili ispitanika u kategorije, diskriminacijska analiza zahtjeva poznavanje grupne pripadnosti za jedinice koje koristimo za utvrđivanje klasifikacijskih pravila. Npr. ukoliko nastojimo razlikovati ispitanike koji spadaju u 3 dijagnostičke kategorije, moramo poznavati dijagnozu (grupnu pripadnost) za svakog ispitanika. Na osnovu karakteristika tih ispitanika sa poznatom grupnom pripadnošću, d.a. omogućuje definiranje pravila za klasifikaciju ispitanika za koje ne znamo grupnu pripadnost.
U klaster analizi grupna pripadnost objekata nije poznata, kao ni konačni broj grupa. Cilj klaster analize jest utvrđivanje homogenih grupa ili klastera. Termin klaster dolazi od engl. riječi cluster (skupina "istovrsnih stvari", grozd, skupiti u hrpu).
Načelno jedinice koje čine klastere mogu biti neki objekti (varijable) ili ispitanici. U prvoj situaciji pokušavamo utvrditi grupiranje nekih objekata, entiteta (ispitanika, gradova,škola, životinja i sl.) prema nekim varijablama, kao npr. Primjer 1: grupiranje objekata prema izmjerenim karakteristikama
Identičnu situaciju imamo kada jedinice analize predstavljaju pojedini ispitanici za koje imamo neke izmjerene karakteristike. U tom slučaju ulaznu matricu podataka čine ispitanici i njihovi podaci u varijablama: Primjer 2: Grupiranje ispitanika prema izmjerenim karakteristikama
Drugu moguću situaciju s obzirom na sadržaj ulazne matrice može predstavljati slučaj kada su nam u kolonama varijable (varijable u tom slučaju predstavljaju objekte ili entitete) čije grupiranje nastojimo ispitati, dok su nam u redovima ispitanici koji su procjenjivali svaki od objekata prema nekoj karakteristici i koji nam služe kao izvor informacije o sličnosti ili različitosti varijabli. Primjer 3: Grupiranje varijabli (objekata) prema procjenama ispitanika (slično kao u faktorskoj analizi)
Neke uvodne napomene o klaster analizi Prvi oblici klaster analize javljaju se početkom ovog stoljeća, ali se značajnija literatura iz ovog područja razvija od šezdesetih godina. Brzi razvoj računala, te temeljni značaj klasifikacije kao znanstvene procedure uvjetovali su popularnost ove metode. Psiholozi je ponekad nazivaju "siromašnom faktorskom analizom". U okviru klaster analize postoji veliki broj različitih algoritama koji u načelu odgovaraju na iste probleme.
Neke važne napomene vezane uz korištenje klaster analize: 1. Većina metoda klaster analize predstavlja relativno jednostavne statističke postupke, te nemaju značajniju potporu u standardnom statističkom rezoniranju (npr. određivanju značajnosti). 2. Pojedine metode razvijene su i korisne uokviru pojedinih znanstvenih disciplina , dok u drugima nisu od većeg značaja. 3. Različite metode klasterizacije, mogu a često i dovode, do različitih različitih konačnih rješenja.
Rezultat klaster analize uvijek predstavlja klasifikacija objekata u neke grupe, što ovisno o korištenoj tehnici može dovesti do različitih rješenja. Jedan od važnih kriterija može biti i "psihološka" smislenost dobivene solucije. Uz klaster analizu također se razvila specifična terminologija. Jedinice koje se povezuju u klastere obično se nazivaju objekti, entiteti, slučajevi (cases), operational taxonomic units (OTU). Grupiranje se vrši na osnovu nekih varijabli, atributa, karakteristika ili obilježja.
Neke od važnih odluka koje treba donijeti pri provođenju klaster analiza su: 1) Izbor uzorka koji ćemo podvrći klaster analizi 2) Odrediti skup relevantnih varijabli koje će reprezentirati obilježja objekata (entiteta) 3) Odrediti transformaciju originalnih podataka 4) Odrediti metodu za određivanje udaljenosti / sličnosti između objekata (entiteta) 5) Odrediti metodu koju za povezivanje objekata u klastere 6) Validacija dobivenih rezultata
Koncept udaljenosti (distance) odnosno sličnosti blizak je mnogim statističkim tehnikama. Mjere distance odnose se na različitost (udaljenost) dva objekta prema nekoj mjerenoj osobini (npr. udaljenost između dvije stranke u pogledu broja članova može biti Mjere sličnosti pokazuju bliskost između dva objekta. Za bliske, srodne objekte mjere udaljenosti su male, dok su mjere sličnosti velike. U klaster analizi ovi koncepti su osobito važni budući da se na njima zasniva formiranje klastera. Izbor mjere udaljenosti treba biti zasnovan na osobinama varijabli, te algoritmu za formiranje klastera.
1. Izbor uzorka na kojem se vrši klasterizacija Izbor uzorka objekata, ispitanika, odnosno jedinica kao i u drugim statističkim analizama u znatnoj mjeri determinira način grupiranja objekata.
2. Izbor varijabli koje će reprezentirati obilježja objekata (entiteta) Ovo je kao i kod većine multivarijatnih metoda jedna od najvažnijih odluka. Osnovni problem jest izbor onih varijabli (mjera, osobina) koje najbolje reprezentiraju koncept sličnosti koji istražujemo na nekom skupu objekata. Poželjno je da se odabir vrši na osnovi neke elaborirane teorije ili modela. (Istraživaču koji nema jasnu hipotezu svako grupiranje objekata ima smisla, te ga može zadovoljiti).
3. Odluka o transformaciji varijabli Jedna od važnih odluka jest da li je potrebno prije klasterizacije izvršiti neku transformaciju varijabli ili zadržati originalne vrijednosti. Visoko korelirani objekti ne moraju nužno imati podjednak rezultat na varijablama. Ukoliko su korištene varijable izmjerene na različitim mjernim ljestvicama (npr. testovi s različitim brojem zadataka) potrebno je prethodno izvršiti neki oblik standardizacije rezultata. Podatak o varijablitetu i prosječnom rezultatu može ponekad pružati korisnu informaciju za formiranje klastera, osobito u slučaju kad su pojedina obilježja objekata izražena na jednakim originalnim skalama.
a) razmotrimo posljedice standardizacije rezultata na određivanje udaljenosti između 2 objekta:
b) Razmotrimo utjecaj različitog raspršenja rezultata na udaljenost 3 varijable
Korisno je prije određivanja udaljenosti između objekata izraziti sve varijable u nekom standardiziranom obliku. SPSS nudi nekoliko mogućnosti : Verzija SPSS-a 6.0 /WIN nudi nekoliko vrsta transformacija 1. Transformacija rezultata u z-vrijednosti 2. Transformacija rezultata na raspon od -1 do +1 3. Transformacija rezultata na raspon od 0 do 1 4. Transformacija rezultat na skalu sa M =1 5. Transformacija rezultata na skalu sa s = 1
4. Izbor mjere udaljenosti / sličnosti: Postoji veći broj različitih mjera udaljenosti ili sličnosti između objekata. Upotreba različitih mjera razlikovanja objekata ima za posljedicu da se pojedinim karakteristikama podataka pridaje različit značaj (npr. pridavanje većeg značaja većim razlikama; uzimanje u obzir najveće ili najmanje pojedine razlike između dva objekta). Izbor mjere uvjetovan je važnošću nekih karakteristika podataka u specifičnoj situaciji u kojoj vršimo klasterizaciju objekata. Osnovna razlika postoji između mjera sličnosti i mjera udaljenosti. Termin sličnost često se koristi kao sinonim za povezanost ili korelaciju. (primjer)
4.1) SEUCLID - SQUARED EUCLIDEAN DISTANCE - kvadrirana euklidska udaljenost. Udaljenost 2 objekta određuje se kao suma kvadriranih razlika vrijednosti za svaku varijablu
4.2) EUCLID - EUCLIDAN DISTANCE. Standardna euklidska udaljenost koja se računa kao kvadratni korijen iz sume kvadriranih razlika vrijednosti za svake varijable.
4.3) COSINE - Kosinus vektora za dvije varijable. Predstavlja mjeru sličnosti.
4.4) BLOCK - CITY-BLOCK ili MANHATTAN DISTANCE. Razlika između 2 objekta izražena kao suma apsolutnih razlika vrijednosti za sve varijable.
4.5) CHEBYCHEV - Udaljenost između dva objekta izražena kao maksimalna apsolutna razlika između dvije vrijednosti u bilo kojoj od varijabli.
4.6) PEARSON CORRELATION - Pearsonov koeficijent korelacije između dva objekta koristi se kao mjera sličnosti između dva objekta.
4.7) MINKOWSKI DISTANCE - Udaljenost između dva objekta računa se kao p-ti korijen sume apsolutnih razlika između svih parova vrijednosti , potenciranih na p-tu potenciju za sve. Potrebno je definirati vrijednost p.
4.8) POWER(p.r) ili CUSTOMIZED. Udaljenost u domeni "apsolutne potencijske metrike". Udaljenost između dva objekta predstavlja r-ti korijen iz sume apsolutnih razlika između svih parova vrijednosti potenciranih na p-tu potenciju. Potrebno je definirati vrijednosti p i r. Postoje metode za određivanje udaljenosti za varijable koje sadrže frekvencije, te za binarne varijable.
5. Izbor metode za povezivanje objekata u klastere Postoji veći broj metoda za kombiniranje objekata u klastere. U načelu razlikujemo hijerarhijske i nehijerahijske metode klasterizacije. Ovdje ćemo se uglavnom baviti hijerarhijskim pristupima, koji se nadalje mogu podijeliti na tzv. aglomerativne (agglomerative) - "gomilajuće" , te "divisive" odnosno dijeleće. Ovi prvi polaze od pojedinih objekata koje povezuju u sve veće klastere, dok drugi polaze od svih objekata udruženih u jedan klaster, te ih zatim dijele do pojedinih objekata.
Kod "aglomerativnih" metoda svaki objekt tretira se na prvom koraku kao zaseban klaster. Zatim se udružuju dva najbliža objekta u prvi klaster. U trećem koraku ili se tom klasteru dodaje neki pojedini objekt ili se dva pojedina objekta povezuju u drugi klaster. Pri svakom sljedećem koraku ili se pojedini objekti kombiniraju u nove klastere ili se već postojeći klasteri međusobno povezuju. Jednom formirani klaster se, kod hijerahijskih metoda klasteriziranja, više ne može dijeliti, već se samo može povezivati s drugim klasterima.
Općenito mogu se podijeliti u 3 grupe: metode povezivanja (linkage), metoda pogreške sume kvadrata ili metoda varijance, te centroidne metode. Sve metode se zasnivaju na matricama udaljenosti ili sličnosti među objektima (k x k). Metode se razlikuju prema načinu na koji se procjenjuje udaljenost između klastra u sukcesivnim koracima. Na formiranje klastera mogu utjecati i postupci određivanja udaljenosti / sličnosti među objektima.
Dominantno se u istraživanjima koristi spomenuta hijerarhijska aglomerativna metoda. Neke karakteristike ove metode su: 1) polazi se od matrice sličnosti među objektima k x k 2) Sukcesivno formiranje klastera može se prikazati grafički dijagramom u obliku stabla, koji se naziva dendrogram (grč. dendros - stablo). 3) Metoda zahtjeva k-1 koraka u formiranju klastera, budući da se na prvom koraku svi pojedinačni objekti tretiraju kao zasebni klasteri. Konačno se dobiva jedan klaster koji sadrži sve objekte. 4) Relativno je lako razumljiva širem krugu potencijalnih korisnika.
5.1) SINGLE LINKAGE ("NEAREST NEIGHBOUR"): Jednostruko povezivanje (metoda najbližeg susjeda) Prva dva objekta koja se povezuju u klaster su ona dva koja imaju najmanju međusobnu udaljenost (najveću sličnost). Udaljenost između novog klastera i pojedinog objekta određuje sa kao najmanja udaljenost između tog objekta i članova već formiranog klastera. U svakom od sljedećih koraka udaljenost dva klastera određuje se kao udaljenost njihova 2 najbliža člana.
5.2) COMPLETE LINKAGE ("FURTHEST NEIGHBOUR"): Potpuno povezivanje (metoda najdaljeg susjeda) Kod ove metode udaljenost između dva klastera računa se na osnovu udaljenosti između dva najudaljenija člana.
5.3) UPGMA - AVERAGE LINKAGE BETWEEN GROUPS (unweighted pair-group method using arithmetic averages): Prosječno veza između grupa.Ovo je standarna opcija u SPSS-u. Definira udaljenost između dva klastera kao prosjek udaljenosti između svih parova koji se mogu definirati između dva objekta. Npr. ako klaster A čine objekti 1 i 2, a klaster B objekti 3,4 i 5, udaljenost između klastera A i B možemo odrediti kao prosjek udaljenosti između sljedećih parova objekata: (1,3), (1,4), (1,5), (2,3), (2,4), (2,5). Tih unakrsnih udaljenosti ima kA x kB. Ova metoda kao što se vidi uzima u obzir informacije o svim parovima objekata između dva klastera, zbog čega se preferira u odnosu na dvije prethodne metode.
5.3) UPGMA - AVERAGE LINKAGE BETWEEN GROUPS (nastavak) između dva prikazana klastera moguće je izračunati ukupno 6 distanci (13, 14, 15, 23, 24, 25). Prosječna distanca predstavlja mjeru udaljenosti između dva klastera
5.4) AVERAGE LINKAGE WITHIN GROUPS: Prosječna veza unutar grupa. Ova metoda kombinira klastere tako da prosječna udaljenost između članova novog klastera bude što manja. Tako se udaljenost između dva klastera definira kao prosječna udaljenost između svih objekata koji bi sačinjavali novi klaster od ta dva postojeća.
5.5) WARD'S METHOD Za svaki klaster izračunaju se aritmetičke sredine za svaku varijablu. Zatim se za svaki objekt računa kvadrirana euklidska udaljenost do aritmetičke sredine klastera. Sumiraju se ove udaljenosti za sve članove klastera. Spajaju se oni klasteri za koje je ukupna (zajednička) suma ovih odstupanja najmanja.
5.6) CENTROID CLASTERING METHOD Određuje udaljenost između klastera kao udaljenost između aritmetičkih sredina oba klastera (njihovih centroida). Jedan nedostatak centroidne metode jest u tome što se početna udaljenost dva klastera moe smanjiti između dva sukcesivna koraka analize. Klasteri spojeni u kasnijim fazama su više različiti nego oni spojeni u ranijim koracima.
5.7) MEDIAN CLUSTERING METHOD Kod metode medijana dva klastera koja se spajaju, ponderirani su jednako prilikom određivanja centroida, bez obzira na broj objekata u svakom od njih. Kvadrirana euklidska udaljenost koristi se kod ove metode kao i prethodne (centroidne).
K-means klaster analiza (QUICK CLUSTER) U okviru SPSS-a postoji poseban algoritam za klasifikaciju objekata u klastere , tzv. K-means klaster analiza (ili Quick cluster), pogodan za rad s velikim brojem objekata. Ova metoda spada u kategoriju Iterativnih metoda (Iterative Partitioning Methods) Kod ovog postupka mora se unaprijed definirati konačni broj klastera, na osnovu čega program nove objekte svrstava u najbliži klaster. Algoritam za ovaj oblik klaster analize predstavlja metoda nearest centroid sorting (Anderberg, 1973) (sortiranje na osnovu najbližeg centroida).
Neke druge metode klasterizacije (koje ne postoje u SPSS-u) a) Varijante faktorske analize Posebno je poznata Q-metoda faktorske analize. Ove metode polaze od matrice (k x k) sličnosti među objektima. Faktori se ekstrahiraju iz korelacijske matrice, a objekti se pridružuju klasterima obzirom na njihova faktorska zasićenja.
6. Koraci pri provodjenju i interpretaciji klaster analize 6.1) Potrebno je definirati koje vrijednosti su u redovima,a koje u stupcima polazne matrice s rezultatima. U redovima se trebaju nalaziti objekti (ispitanici) koje namjeravamo grupirati, a u stupcima (kolonama) trebaju se nalaziti varijable koje reprezentiraju obilježja objekata. SPSS za Windowse omogućuje jednostavni transpon matrice (pretvaranje redova u kolone) ukoliko su podaci upisani na suprotan način. 6.2) Odrediti deskriptivnu statistiku varijabli, te odlučiti o eventualnoj transformaciji podataka