200 likes | 359 Views
ANALIZA SKUPINA. A naliza skupina. Za razliku od diskriminacione analize ovde broj grupa i njihove karakteristike nisu unapred poznate. Cilj je otkriti prirodne grupe medju jedinicama posm atranja u odnosu na posmatrane karakteristike (npr. dohodak i zaduženost).
E N D
Analiza skupina • Za razliku od diskriminacione analize ovde broj grupa i njihove karakteristike nisu unapred poznate. • Cilj je otkriti prirodne grupe medju jedinicama posmatranja u odnosu na posmatrane karakteristike (npr. dohodak i zaduženost)
Prema čemu se grupišu opservacije u skupine? • Prema nekoj meri sličnosti. Najsličnije opservacije treba da budu u istoj skupini • Koje mere sličnosti se koriste u analizi skupina? • Euklidsko odstojanje – mera različitosti • Koeficijenti korelacije – mera bliskosti • Koeficijenti povezanosti – mera bliskosti (za binarne atribute)
Euklidsko odstojanje – mera različitosti Koji proizvodi su najsličniji? AB Koji proizvodi su najrazličitiji?AC
Koeficijent povezanosti – mera bliskosti • Izračunati koeficijent sličnosti između televizora marke Samsung i Neo (1-poseduje karakteristiku, 0-ne poseduje datu karakteristiku) a-broj karakteristika koje poseduju oba brenda b-broj karakteristika koje poseduje samo prvi brend c-broj karakteristika koje poseduje samo drugi d-broj karakteristika koje ne poseduje ni jedan brend Sličnost SAMSUNG-NEO= =(a+d)/(a+b+c+d)=2/4=0.5
Koeficijent korelacije – mera sličnosti • Posmatramo dinamiku gledanosti po nedeljama tri televizijske stanice (PINK, FOX, RTS)
Ko ima najsličniju dinamiku gledanosti? PINKi FOX
Analiza skupina • Koje procedure grupisanja postoje? • Hijerarhijska– nema unapred definisan broj skupina. Polazi se od toga da je svaka jedinica zasebna skupina pa se na osnovu mera sličnosti povezuju u sve manji broj skupina dok ne postanu jedna (može i obratno) • Nehijerarhijska – unapred definisan broj skupina. Preporučuje se primena obe procedure prvo hijerarhijske pa nehijerarhijske.
Analiza skupina • Kod hijerarhijske analize u svakoj iteraciji spajaju se najsličnije grupe • Kako merimo udaljenost (sličnost) izmedju GRUPA? • Jednostruko povezivanje • Potpuno povezivanje • Prosečno povezivanje • Metod centroida • Vordov metod
Jednostruko povezivanje • Metod najbližih suseda (euklidsko-mera sličnosti) Koja je udaljenost ove dve skupine po metodu najbližij suseda? Ono je jednako euklidskom odstojanju proizvodaE i C
Potpuno povezivanje • Naziva se još i metod najudaljenijih suseda
Metod prosečnog povezivanja • Uzima se prosek distanci jedinica iz obe skupine. Primer: neka jednu skupinu čine jedinice AiB, a drugu skupinu neka čini samo C • Udaljenost prema ovom metodu (7,07+6,4)/2=6,735
Analiza skupina • Uzimajući u obzir sledeće mere bliskosti odrediti koji proizvodi pripadaju kojim skupinama po metodu najbližih suseda koristeći DENDROGRAM • AB i D jedna skupina • EC druga skupina
Analiza skupina • Uzimajući u obzir sledeće mere različitosti odrediti koji proizvodi pripadaju kojim skupinama po metodu najbližih suseda koristeći DENDROGRAM • B, C i D jedna skupina • E i A druga skupina
Zadatak • Izračunati koeficijent sličnosti između televizora marke Samsung i Neo (1-postoji karakteristika, 0-ne postoji karakteristika) A-broj karakteristika koje poseduju oba brenda B-broj karakteristika koje poseduje samo Samsung C-broj karakteristika koje poseduje samo Neo D-broj karakteristika koje ne poseduje ni jedan brend s=(a+d)/(a+b+c+d) =4/8=0.5