860 likes | 960 Views
StatSoft Statistica for Windows kezelése: Cluster Analysis 1. Ozsváth Károly NYME ACSJK Testnevelési Tanszék. A clusteranalízis csoportok képzésére szolgáló többváltozós statisztikai eljárás.
E N D
StatSoft Statistica for Windows kezelése: Cluster Analysis 1. Ozsváth KárolyNYME ACSJK Testnevelési Tanszék
A clusteranalízis csoportok képzésére szolgáló többváltozós statisztikai eljárás. • Az analízis a csoportosítást mindenképpen elvégzi, de ez még nem jelenti azt, hogy a csoportok között ténylegesen szignifikáns különbségek találhatók. (Ez diszkriminancia-analízissel vizsgálható, szükség esetén.) A clusteranalízis – hasonlóan a faktoranalízishez – nem hipotézisvizsgálati eljárás, nincs nullhipotézis, nincs szignifikancia vizsgálat. Az analízis osztályozási, osztályba sorolási, csoportba sorolási technika. („Cluster”= csoport, csoportosul/összegyűlik, csomó, fürt, nyaláb)
A clusteranalízis a vizsgált mintátrészhalmazokra próbálja bontani. Az eljárás a változók vagy a vizsgálati személyek hierarchiáját mutatja meg a kiválasztott algoritmus szerint, és az eredeti adatok összessége, együttes figyelembe vétele alapján. • A hierarchia egy „fa” diagramon is ábrázolható. E grafikus kép elnevezése: dendogram. A dendogramon többnyire jól láthatók „sűrűsödési”, csoportosulási pontok, melyek a hozzájuk tartozó clusterekkel beazonosíthatók.
A clusteranalízis több módszerrel (algoritmussal) végezhető, amelyek eredményei egymástól részben eltérőek lehetnek. Ezért az osztályba sorolás „jóságáról” szakmai érvek és más statisztikai módszerek – pl. diszkriminanciaanalízis – alkalmazásával lehet meggyőződni. • Feltétlenül meg kell győződni a kialakított csoportok jellemzőiről, változónkénti leíró statisztikáiról (átlag, szórás, stb.)
Első lépésként azt kell eldönteni, hogy a változók clusterezésére, vagy az estek/vizsgálati személyek clusterezésére van-e szükségünk? • El kell dönteni továbbá, hogy előre meghatározott számú csoportot kívánunk kialakítani, vagy nem szabunk korlátot a csoportok számára és a dendogram (clusterek) alapján kívánunk csoportokat kialakítani. • Általában kiindulásként célszerű az utóbbit választani, és elsőként az összekapcsolódáso-kat (fa kapcsolatok, „Joining /tree clustering/ ” ) kimutatni. Azaz kiindulásként célszerű egy dendogramot kapni és azt vizsgálni.
Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, 265-281. p. (SPSS: 266-273.p., Statistica: 273-281.p.) • Fájl: burka2.sta
Példaként egy szakértői értékelés clusteranalízisét mutatom be. A problémát a következő diák szerint vetettük fel.
Milyen sajátosságokat, egyezéseket és eltéréseket mutat? • több szakértő véleménye • több dologról, jelenségről (tárgyakról, intézményekről, személyekről) • egységes szempontrendszer alapján (strukturált, számszerűsíthető szempontok)
a szakértőkre vonatkozóan a vizsgált dolgokra, jelenségekre vonatkozóan A szakértői értékelések egyezése vizsgálható:
A bemutatott sporttudományi példa • 11 szakértő • 5 sportmotoros tesztrendszerről (Eurofit, Hungarofit, Eiben-Barabás, Arday-Farmosi, Nagy S. tesztrendszerei) • 12 strukturált szempont szerinti értékelése (max. 40 pont érhető el)
SZEMPONTRENDSZER A MOTOROS TESZTEK ÉRTÉKELÉSÉHEZ/ Bös (1988) alapján / 1. DOKUMENTÁCIÓ (Max. 7 pont) 1.1. Név - 1.2. Szerző - 1.3. Forrás 3 1.4. Publikációk 2 1.5. Alkalmazások 2 2. KONCEPCIÓ (Max. 13 pont) 2.1. Tartalom 3 2.2. Itiner, instrukciók 2 2.3. Értelmezési tart. 1 2.4. Célmeghatározás 1 2.5. Konstrukciós jegyek 3 2.6. Test manual 3 3.TESZTSTATISZTIKA (Max. 20 pont) 3.1. A kritériumok megadásának általános szintje 3 3.2. Fő kritériumok 10 3.3. Normák, viszonyítási értékek 7 Az egyes pontértékekhez további részletes szempontok kerültek kidolgozásra.
Az eredményeket a „burka2.sta” táblázat tartalmazza. • A táblázatban a felkért szakértők nevét megváltoztattuk, de minden esetben valós személyt takarnak a „fantázianevek”. • A szakértők elnevezése a későbbi csoportba sorolásnak megfelelő. Az egyes tesztekre adott eredeti pontszámokat az első 5 változó foglalja magába. A Var6 és Var7 csoportosítási változó, amelyek a vizsgálat idején, a clusterezés után kerültek kialakításra.
Elsőként nézzük meg az átlagokat és a szórásokat. • Jól látható, hogy a szakértők véleménye erősen szóródik. • A magas szórások miatt az átlagok különbsége n.sz., kivéve a szélső értékeket képviselő két tesztrendszert.
Ezek után indítsuk el a clusteranalízist, ahol az első lépés a szokásos: • Változók kijelölése
Majd válasszuk ki, hogy mire vonatkozik a clusterezés: változókra vagy esetekre (oszlopokra/sorokra), • valamint az eljárási algoritmust is válasszuk ki. • Jelen esetben elsőként a változókat clusterezzük, a „Complete linkage” eljárással.
A kapott eredmény szerint az Arday-Farmosi és a Nagy S. féle tesztrendszerek megítélése a legegységesebb. (Ezeknél volt a legkisebb az értékelő pontok szórása.) Ezzel szemben a szakértők egymástól leginkább eltérően az Eurofitet, és különösen a Hungarofitet minősítették. • Vegyük észre, hogy jelen esetben a pontszámok szórása már eleve utalt a tesztek eltérő megítélésére. Nézzük meg, hogy ezen túlmenően csoportosíthatók-e a szakértői vélemények (illetve a szakértők)?
Az első lépésben az Arday-Farmosi és a Nagy S. féle tesztrendszerek kapcsolódtak egymáshoz, a második lépésben kapcsolódott hozzájuk az Eiben-féle tesztrendszer, harmadik lépésben következett az Eurofit, majd végül a Hungarofit. • „Amalgamation Schedule” eredményei egyértelműen mutatják fentieket, és egyúttal jelzik az egyre nagyobb „távolságokat” (distances) a tesztek kapcsolódása között. Ez egyébként grafikusan is lekérhető a továbbiak szerint.
A következő lépésben visszatérünk egy korábbi ablakhoz („Cancel”), és a változók helyett az esetekre/személyekre („Cases/Rows”) végzünk clusteranalízist.
3 2 1
Az analízis szerint 3 csoport jól elkülöníthető egymástól, ezen belül az első kettő áll közelebb egymáshoz. (Az adatáblázatban „TIPUS2” csoportosítási változó szerint.) A 3 csoport elkülönítéséhez 8 lépés volt szükséges. • Sajnálatos – és nehezen érthető – módon a StatSoft Statistica program nem teszi lehetővé a clusterek/csoportok mentését, rögzítését ennél a módszernél (Joining/tree clustering). Ezt vagy manuálisan, vagy más programmal, pl. a fentiekre képes SPSS-el végezhetjük el.
Kérdés még, hogy az elkülönített 3 csoport milyen jellemzőkkel rendelkezik? • Ennek megítélésére nézzük meg a csoportonkénti átlagokat, és végezzünk diszkriminanciaanalízist a csoportok közötti különbségekre vonatkozóan.
SZIGORÚAK JOVIÁLISOK HUNGAROFITESEK