380 likes | 800 Views
Klaszterelemzés az SPSS-ben. Petrovics Petra Doktorandusz. Klaszteranalízis. Olyan dimenziócsökkentő eljárás , amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni.
E N D
Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz
Klaszteranalízis • Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. • Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.
Gyakorlati alkalmazási területei • Piacszegmentálás • Releváns piac meghatározása • Szegmentáció alapjául szolgáló ismérvek meghatározása • Szegmentálás (Faktor-, klaszteranalízis) • 1 csoportba került fogyasztók jellemzése • Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) • Új termék lehetőségeinek feltárása • Tesztpiacok kiválasztása • Adatcsökkentés
Feladat TK/286. oldal (Sajtos-Mitev) • Levesport gyártó vállalat fogyasztóit kérdezték meg • Név: String • Főzős: 1-7-ig terjedő skálán mennyit főz • Házias: 1-7-ig terjedő skálán mennyire házias • Nem: 1: férfi, 2: nő • Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. • Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)
Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan • Kiugró adatok (outliers) • Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; • Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / HierarchicalCluster / Method: Nearestneighbour
Skálák • Hasonló skálázási adatok az összehasonlíthatók • Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: • a válaszok egymáshoz képesti relatív fontossága a lényeges, • hasonló profilokat keresünk, • nem érdekel a „válaszadó stílusa hatás”. Átlaga 0, szórása 1 Összehasonlítható adatok
Erősen korrelálnak az elemzésbe bevont változók egymással? • Analyze / Regression/ Linear … Multikollinearitás
Forgy: kezdőpontmagpont Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság A legközelebbi 2 elem távolsága A klasztereken belüli szórásnégyzet növekedése a legkisebb A legtávolabbi 2 elem távolsága Az elemek közötti távolság átlaga Forrás: Malhotra [2001]
Kombinált használat: Hierarchikus: klaszterek ideális száma Kiugró elemek kiszűrése Nem hierarchikus csoportosítás
Analyze / Classify / HierarchicalCluster Az összevonás lépései A szerintünk releváns változók Ne használd, lefagy a gép! Távolságmátrix Ha az egyes egységeket el szeretnénk nevezni Megfigyelési egységeket / változókat szeretnénk összevonni Jégcsapdiagram meghatározott klasztertartományra
Outlierek kiszűrése miatt! Távolságmérték
Rita Vera Output Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonásra került klaszter melyik lépésben jelenik meg először Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás
VerticalIcecle – Jégcsap diagram Nagy elemszám esetében nehezen kezelhető. 3 Géza ~ kiugró érték Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés
Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?
Kiugró elemek törlése Data / Select Cases / If condition is satisfied… Ez marad benn.
Analyze / Classify / HierarchicalCluster / Method: Ward • Metrikus változók • Nincs kiugró érték • Nincs korreláció a változók között
Kutatói tapasztalat • Távolságok • Könyökkritérium • Klaszterek relatív mértéke
b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát 2 v. 3 klaszter
c) Könyökkritérium Ábraszerkesztés Line
12. lépés után n - stagetöréspont 3 klaszter (n-1) elem
Analyze / Classify / HierarchicalCluster / Save… Konkrét klaszterszám
Klasztercentroidok és szórások • Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek • vegyes kapcsolat • Analyze / CompareMeans / Means
Demográfiai vizsgálat (nem, lakhely) • Minőségi-minőségi ismérv asszociáció • Analyze / DescriptiveStatistics / Crosstabs
Mennyiségi (kereset) +minőségi (cluster) ismérvek • vegyes kapcsolat (ANOVA) • Analyze / CompareMeans / Means
Más távolságmérték • Más klasztereljárások • Változók elhagyása • A minta 2 részre bontása • Az esetek sorrendjének megváltoztatása • Nem hierarchikus klaszterelemzés… Folyt. köv. órán