1 / 25

Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave február 2008. Zhluková analýza. Charakteristika CA rozklad súboru na niekoľko homogénnych podsúborov štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšie

fisseha
Download Presentation

Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zhluková analýza Cluster Analysis (CA) Mária Vojtková Katedra štatistiky FHI EU v Bratislave február 2008

  2. Zhluková analýza • Charakteristika CA • rozklad súboru na niekoľko homogénnych podsúborov • štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšie • štatistické jednotky rôznych zhlukov sú navzájom čo najodlišnejšie, najvzdialenejšie • zoskupiť Xi i=(1, ....n) do zhlukov c1,....cq (2 < q < n)

  3. Zhluková analýza • Postup CA • výber miery podobnosti (resp. nepodobnosti) • výber druhu zhlukovacieho postupu • výber zhlukovacej metódy • určenie počtu významných zhlukov • interpretácia zhlukov

  4. Zhluková analýza - výber miery podobnosti • miery podobnosti • koeficienty asociácie • koeficienty korelácie • pravdepodobnostné miery • miery nepodobnosti • vzdialenosti – nezáporné reálne funkcie d(XY)

  5. Zhluková analýza - vlastnosti miery vzdialenosti

  6. Euklidovská vzdialenosť Obrázok 1: Grafické znázornenie výpočtu Euklidovskej vzdialenosti

  7. Hammingova vzdialenosť (city-block distance) Obrázok 2: Grafické znázornenie výpočtu Hammingovej vzdialenosti

  8. Prehľad mier vzdialenosti • Euklidovská vzdialenosť Dij= (xik- xjk)2 • Hammingova vzdialenosť Dij= |xik- xjk| • Minkovskeho vzdialenosť Dij= (|xik- xjk|r ) 1/r • Mahalanobisova vzdialenosť Dij= (Xi – Xj)' .S-1.(Xi – Xj)

  9. Zhluková analýza • výber druhu zhlukovacieho postupu • hierarchický postup • úplná analýza štatistického súboru • výsledok možno zobraziť pomocou hierarchického grafu - dendrogramu • aglomeratívny • v prvom kroku je každá jednotka samostatným zhlukom • v poslednom kroku sú všetky jednotky v jednom zhluku • divízny • v prvom kroku sú všetky jednotky v jednom zhluku • v poslednom kroku každá jednotka predstavuje zhluk

  10. Zhluková analýza • výber druhu zhlukovacieho postupu • nehierarchický postup • vopred určený počet zhlukov • iteratívny postup určenia ich stredov • postupné zaraďovanie jednotiek k vybraným stredom

  11. Všeobecný hierarchický zhlukovací postup

  12. výber zhlukovacej metódy hierarchické – aglomeratívne metóda najbližšieho suseda (nearest-neighbor) poznáme maticu euklidovských vzdialeností vyberieme spojenie na základe min vzdialenosti nové spojenie = min dij tzv. reťaziaci efekt Zhluková analýza Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najbližšieho suseda

  13. Zhluková analýza • výber zhlukovacej metódy • hierarchické – aglomeratívne • metóda najvzdialenejšieho suseda (furthest-neighbor) • poznáme maticu euklidovských vzdialeností • nové spojenie = max dij • vyberieme spojenie, prepočítame, atď. • konzistentné, izolované zhluky Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najvzdialenejšieho suseda

  14. Zhluková analýza • výber zhlukovacej metódy • hierarchické – aglomeratívne • metóda priemernej väzby (group average) • poznáme maticu euklidovských vzdialeností • vzdialenosť medzi dvomi zhlukmi je vypočítaná ako priemerná min vzdialenosť prvkov

  15. Zhluková analýza • výber zhlukovacej metódy • hierarchické – aglomeratívne • centroidná metóda (centroid method) • poznáme maticu euklidovských vzdialeností • každý novovytvorený zhluk je nahradený priemerným prvkom = centroidom • nové spojenie = štvorec euklidovskej vzdialenosti • nevýhodou sú inverzie • mediánová metóda (median method) • reprezentantom zhluku je jeho medián • vylepšenie centroidnej metódy

  16. Zhluková analýza • výber zhlukovacej metódy • hierarchické – aglomeratívne • Wardova metóda (Ward method) • nepočítame maticu vzdialeností • kritérium spojenia = max vnútrozhlukovej homogenity • mierou homogenity ESS • inicializačné spojenie znamená minimálny prírastok ESS = ΣΣ(Xij – priemXtj) 2 • zhluky rovnakej veľkosti a tvaru

  17. Zhluková analýza • výber zhlukovacej metódy • nehierarchické • Metóda typických bodov (seeded) • seed = typický predstaviteľ zhluku • ostatné objekty rozdelené podľa euklidovskej vzdialenosti od seed • Metóda k-priemerov • celý rad modifikácii • Metóda optimálnych stredov alebo medoidov • medoid – optimálny stred zhluku • jeho priemerná vzdialenosť k ostatným objektom v zhluku je minimálna • Fuzzy zhlukovanie • umožňuje zaradenie jedného objektu do viacerých zhlukov • prítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je medzi 0 a 1 – tzv. fuzifikácia zhlukovej konfigurácie • väčší počet prijateľných riešení

  18. Zhluková analýza • Nehierarchické zhlukovanie využíva tri postupy: • sekvenčný: najprv sa určí prvý predstaviteľ zhluku, ku ktorému sa na základe špecifikovanej vzdialenosti priradia objekty, potom sa určí druhý predstaviteľ a proces sa opakuje, • paralelný: na začiatku sa určí niekoľko predstaviteľov, ku ktorým sú jednotlivé objekty priraďované paralelne, • optimalizačný: podobný predchádzajúcemu postupu avšak umožňuje znovuzaradenie objektu.

  19. Porovnanie zhlukovacích metód • Hierarchické metódy: • v minulosti populárnejšie (za najlepšie metódy považované Wardová, metóda priemernej väzby a centroidná metóda) • rýchle, menšia spotreba stojového času a jednoduché • poskytujú podrobnú štruktúru dát, nie je potrebné poznať počet zhlukov na začiatku analýzy • na ich výsledky majú vplyv odľahlé pozorovania • nevhodné na analýzu veľmi veľkých súborov

  20. Porovnanie zhlukovacích metód • Nehierarchické metódy: • v poslednom čase sa využívajú viac • vyžadujú zadanie počtu zhlukov na začiatku analýzy • výsledky sú ovplyvnené praktickými znalosťami užívateľa a objektívnou teóriou, ako stanoviť predstaviteľov zhlukov • nie sú natoľko ovplyvnené odľahlými pozorovaniami • poskytujú viacero prijateľných alternatív štruktúry dát

  21. Zhluková analýza • určenie počtu významných zhlukov • heuristický prístup • ukazovatele kvality zhlukovania • Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD), • Koeficient determinácie (RSQ), • Semiparciálny koeficient determinácie (SPRSQ), • Vzdialenosť zhlukov (CD).

  22. Zhluková analýza • určenie počtu významných zhlukov • RMSSTD - homogenita nového zhluku • malé • SPRSQ – homogenita spojených zhlukov • malé • RSQ – heterogenita zhlukov • vysoké • CD – homogenita spojených zhlukov • malé

  23. Zhluková analýza • určenie počtu významných zhlukov • v SASe cubic clustering criterion (CCC) • Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame. • Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov. • Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá. • Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz. • Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.

  24. Zhluková analýza • interpretácia zhlukov • dendrogram • grafická analýza • popisná štatistika • hodnotiaca miera je zhlukový centroid (ťažisko zhluku) podľa jednotlivých premenných • popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho hodnotenia

  25. Bližšie pozri: Stankovičová, Vojtková: Viacrozmerné štatistické metódy s aplikáciami, Bratislava: Iura edition, 2007, ISBN 978-80-8078-152-1

More Related