1 / 86

Ozsváth Károly NYME ACSJK Testnevelési Tanszék

StatSoft Statistica for Windows kezelése: Cluster Analysis 1. Ozsváth Károly NYME ACSJK Testnevelési Tanszék. A clusteranalízis csoportok képzésére szolgáló többváltozós statisztikai eljárás.

Download Presentation

Ozsváth Károly NYME ACSJK Testnevelési Tanszék

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. StatSoft Statistica for Windows kezelése: Cluster Analysis 1. Ozsváth KárolyNYME ACSJK Testnevelési Tanszék

  2. A clusteranalízis csoportok képzésére szolgáló többváltozós statisztikai eljárás. • Az analízis a csoportosítást mindenképpen elvégzi, de ez még nem jelenti azt, hogy a csoportok között ténylegesen szignifikáns különbségek találhatók. (Ez diszkriminancia-analízissel vizsgálható, szükség esetén.) A clusteranalízis – hasonlóan a faktoranalízishez – nem hipotézisvizsgálati eljárás, nincs nullhipotézis, nincs szignifikancia vizsgálat. Az analízis osztályozási, osztályba sorolási, csoportba sorolási technika. („Cluster”= csoport, csoportosul/összegyűlik, csomó, fürt, nyaláb)

  3. A clusteranalízis a vizsgált mintátrészhalmazokra próbálja bontani. Az eljárás a változók vagy a vizsgálati személyek hierarchiáját mutatja meg a kiválasztott algoritmus szerint, és az eredeti adatok összessége, együttes figyelembe vétele alapján. • A hierarchia egy „fa” diagramon is ábrázolható. E grafikus kép elnevezése: dendogram. A dendogramon többnyire jól láthatók „sűrűsödési”, csoportosulási pontok, melyek a hozzájuk tartozó clusterekkel beazonosíthatók.

  4. A clusteranalízis több módszerrel (algoritmussal) végezhető, amelyek eredményei egymástól részben eltérőek lehetnek. Ezért az osztályba sorolás „jóságáról” szakmai érvek és más statisztikai módszerek – pl. diszkriminanciaanalízis – alkalmazásával lehet meggyőződni. • Feltétlenül meg kell győződni a kialakított csoportok jellemzőiről, változónkénti leíró statisztikáiról (átlag, szórás, stb.)

  5. Első lépésként azt kell eldönteni, hogy a változók clusterezésére, vagy az estek/vizsgálati személyek clusterezésére van-e szükségünk? • El kell dönteni továbbá, hogy előre meghatározott számú csoportot kívánunk kialakítani, vagy nem szabunk korlátot a csoportok számára és a dendogram (clusterek) alapján kívánunk csoportokat kialakítani. • Általában kiindulásként célszerű az utóbbit választani, és elsőként az összekapcsolódáso-kat (fa kapcsolatok, „Joining /tree clustering/ ” ) kimutatni. Azaz kiindulásként célszerű egy dendogramot kapni és azt vizsgálni.

  6. Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, 265-281. p. (SPSS: 266-273.p., Statistica: 273-281.p.) • Fájl: burka2.sta

  7. Példaként egy szakértői értékelés clusteranalízisét mutatom be. A problémát a következő diák szerint vetettük fel.

  8. Milyen sajátosságokat, egyezéseket és eltéréseket mutat? • több szakértő véleménye • több dologról, jelenségről (tárgyakról, intézményekről, személyekről) • egységes szempontrendszer alapján (strukturált, számszerűsíthető szempontok)

  9. a szakértőkre vonatkozóan a vizsgált dolgokra, jelenségekre vonatkozóan A szakértői értékelések egyezése vizsgálható:

  10. A bemutatott sporttudományi példa • 11 szakértő • 5 sportmotoros tesztrendszerről (Eurofit, Hungarofit, Eiben-Barabás, Arday-Farmosi, Nagy S. tesztrendszerei) • 12 strukturált szempont szerinti értékelése (max. 40 pont érhető el)

  11. SZEMPONTRENDSZER A MOTOROS TESZTEK ÉRTÉKELÉSÉHEZ/ Bös (1988) alapján / 1. DOKUMENTÁCIÓ (Max. 7 pont) 1.1. Név - 1.2. Szerző - 1.3. Forrás 3 1.4. Publikációk 2 1.5. Alkalmazások 2 2. KONCEPCIÓ (Max. 13 pont) 2.1. Tartalom 3 2.2. Itiner, instrukciók 2 2.3. Értelmezési tart. 1 2.4. Célmeghatározás 1 2.5. Konstrukciós jegyek 3 2.6. Test manual 3 3.TESZTSTATISZTIKA (Max. 20 pont) 3.1. A kritériumok megadásának általános szintje 3 3.2. Fő kritériumok 10 3.3. Normák, viszonyítási értékek 7 Az egyes pontértékekhez további részletes szempontok kerültek kidolgozásra.

  12. Az eredményeket a „burka2.sta” táblázat tartalmazza. • A táblázatban a felkért szakértők nevét megváltoztattuk, de minden esetben valós személyt takarnak a „fantázianevek”. • A szakértők elnevezése a későbbi csoportba sorolásnak megfelelő. Az egyes tesztekre adott eredeti pontszámokat az első 5 változó foglalja magába. A Var6 és Var7 csoportosítási változó, amelyek a vizsgálat idején, a clusterezés után kerültek kialakításra.

  13. Elsőként nézzük meg az átlagokat és a szórásokat. • Jól látható, hogy a szakértők véleménye erősen szóródik. • A magas szórások miatt az átlagok különbsége n.sz., kivéve a szélső értékeket képviselő két tesztrendszert.

  14. Ezek után indítsuk el a clusteranalízist, ahol az első lépés a szokásos: • Változók kijelölése

  15. Majd válasszuk ki, hogy mire vonatkozik a clusterezés: változókra vagy esetekre (oszlopokra/sorokra), • valamint az eljárási algoritmust is válasszuk ki. • Jelen esetben elsőként a változókat clusterezzük, a „Complete linkage” eljárással.

  16. A kapott eredmény szerint az Arday-Farmosi és a Nagy S. féle tesztrendszerek megítélése a legegységesebb. (Ezeknél volt a legkisebb az értékelő pontok szórása.) Ezzel szemben a szakértők egymástól leginkább eltérően az Eurofitet, és különösen a Hungarofitet minősítették. • Vegyük észre, hogy jelen esetben a pontszámok szórása már eleve utalt a tesztek eltérő megítélésére. Nézzük meg, hogy ezen túlmenően csoportosíthatók-e a szakértői vélemények (illetve a szakértők)?

  17. Az első lépésben az Arday-Farmosi és a Nagy S. féle tesztrendszerek kapcsolódtak egymáshoz, a második lépésben kapcsolódott hozzájuk az Eiben-féle tesztrendszer, harmadik lépésben következett az Eurofit, majd végül a Hungarofit. • „Amalgamation Schedule” eredményei egyértelműen mutatják fentieket, és egyúttal jelzik az egyre nagyobb „távolságokat” (distances) a tesztek kapcsolódása között. Ez egyébként grafikusan is lekérhető a továbbiak szerint.

  18. A következő lépésben visszatérünk egy korábbi ablakhoz („Cancel”), és a változók helyett az esetekre/személyekre („Cases/Rows”) végzünk clusteranalízist.

  19. 3 2 1

  20. Az analízis szerint 3 csoport jól elkülöníthető egymástól, ezen belül az első kettő áll közelebb egymáshoz. (Az adatáblázatban „TIPUS2” csoportosítási változó szerint.) A 3 csoport elkülönítéséhez 8 lépés volt szükséges. • Sajnálatos – és nehezen érthető – módon a StatSoft Statistica program nem teszi lehetővé a clusterek/csoportok mentését, rögzítését ennél a módszernél (Joining/tree clustering). Ezt vagy manuálisan, vagy más programmal, pl. a fentiekre képes SPSS-el végezhetjük el.

  21. Kérdés még, hogy az elkülönített 3 csoport milyen jellemzőkkel rendelkezik? • Ennek megítélésére nézzük meg a csoportonkénti átlagokat, és végezzünk diszkriminanciaanalízist a csoportok közötti különbségekre vonatkozóan.

  22. SZIGORÚAK JOVIÁLISOK HUNGAROFITESEK

  23. A csoportok átlagos értékelése

More Related