1 / 38

Klaszterelemzés az SPSS-ben

Klaszterelemzés az SPSS-ben. Petrovics Petra Doktorandusz. Klaszteranalízis. Olyan dimenziócsökkentő eljárás , amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni.

ciaran-guy
Download Presentation

Klaszterelemzés az SPSS-ben

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz

  2. Klaszteranalízis • Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. • Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.

  3. Gyakorlati alkalmazási területei • Piacszegmentálás • Releváns piac meghatározása • Szegmentáció alapjául szolgáló ismérvek meghatározása • Szegmentálás (Faktor-, klaszteranalízis) • 1 csoportba került fogyasztók jellemzése • Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) • Új termék lehetőségeinek feltárása • Tesztpiacok kiválasztása • Adatcsökkentés

  4. Klaszteranalízis folyamata

  5. Feladat TK/286. oldal (Sajtos-Mitev) • Levesport gyártó vállalat fogyasztóit kérdezték meg • Név: String • Főzős: 1-7-ig terjedő skálán mennyit főz • Házias: 1-7-ig terjedő skálán mennyire házias • Nem: 1: férfi, 2: nő • Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

  6. Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

  7. SPSS

  8. A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. • Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)

  9. Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan • Kiugró adatok (outliers) • Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; • Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / HierarchicalCluster / Method: Nearestneighbour

  10. Skálák • Hasonló skálázási adatok az összehasonlíthatók • Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: • a válaszok egymáshoz képesti relatív fontossága a lényeges, • hasonló profilokat keresünk, • nem érdekel a „válaszadó stílusa hatás”. Átlaga 0, szórása 1 Összehasonlítható adatok

  11. Analyze / Classify / HierarchicalCluster / Method…

  12. Erősen korrelálnak az elemzésbe bevont változók egymással? • Analyze / Regression/ Linear … Multikollinearitás

  13. Analyze / Classify / HierarchicalCluster / Method

  14. Forgy: kezdőpontmagpont Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság A legközelebbi 2 elem távolsága A klasztereken belüli szórásnégyzet növekedése a legkisebb A legtávolabbi 2 elem távolsága Az elemek közötti távolság átlaga Forrás: Malhotra [2001]

  15. Kombinált használat: Hierarchikus: klaszterek ideális száma Kiugró elemek kiszűrése Nem hierarchikus csoportosítás

  16. Analyze / Classify / HierarchicalCluster Az összevonás lépései A szerintünk releváns változók Ne használd, lefagy a gép! Távolságmátrix Ha az egyes egységeket el szeretnénk nevezni Megfigyelési egységeket / változókat szeretnénk összevonni Jégcsapdiagram meghatározott klasztertartományra

  17. Outlierek kiszűrése miatt! Távolságmérték

  18. Rita Vera Output Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonásra került klaszter melyik lépésben jelenik meg először Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás

  19. VerticalIcecle – Jégcsap diagram Nagy elemszám esetében nehezen kezelhető. 3 Géza ~ kiugró érték Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés

  20. Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?

  21. Kiugró elemek törlése Data / Select Cases / If condition is satisfied… Ez marad benn.

  22. Analyze / Classify / HierarchicalCluster / Method: Ward • Metrikus változók • Nincs kiugró érték • Nincs korreláció a változók között

  23. Kutatói tapasztalat • Távolságok • Könyökkritérium • Klaszterek relatív mértéke

  24. b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát  2 v. 3 klaszter

  25. c) Könyökkritérium Ábraszerkesztés Line

  26.  12. lépés után n - stagetöréspont 3 klaszter (n-1) elem

  27. Analyze / Classify / HierarchicalCluster / Save… Konkrét klaszterszám

  28. Graphs / Scatter/Dot…

  29. Klasztercentroidok és szórások • Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek •  vegyes kapcsolat • Analyze / CompareMeans / Means

  30. Demográfiai vizsgálat (nem, lakhely) • Minőségi-minőségi ismérv  asszociáció • Analyze / DescriptiveStatistics / Crosstabs

  31. Mennyiségi (kereset) +minőségi (cluster) ismérvek •  vegyes kapcsolat (ANOVA) • Analyze / CompareMeans / Means

  32. Graphs / Pie…

  33. Más távolságmérték • Más klasztereljárások • Változók elhagyása • A minta 2 részre bontása • Az esetek sorrendjének megváltoztatása • Nem hierarchikus klaszterelemzés… Folyt. köv. órán

  34. Köszönöm a figyelmet!

More Related