260 likes | 495 Views
Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave február 2008. Zhluková analýza. Charakteristika CA rozklad súboru na niekoľko homogénnych podsúborov štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšie
E N D
Zhluková analýza Cluster Analysis (CA) Mária Vojtková Katedra štatistiky FHI EU v Bratislave február 2008
Zhluková analýza • Charakteristika CA • rozklad súboru na niekoľko homogénnych podsúborov • štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšie • štatistické jednotky rôznych zhlukov sú navzájom čo najodlišnejšie, najvzdialenejšie • zoskupiť Xi i=(1, ....n) do zhlukov c1,....cq (2 < q < n)
Zhluková analýza • Postup CA • výber miery podobnosti (resp. nepodobnosti) • výber druhu zhlukovacieho postupu • výber zhlukovacej metódy • určenie počtu významných zhlukov • interpretácia zhlukov
Zhluková analýza - výber miery podobnosti • miery podobnosti • koeficienty asociácie • koeficienty korelácie • pravdepodobnostné miery • miery nepodobnosti • vzdialenosti – nezáporné reálne funkcie d(XY)
Euklidovská vzdialenosť Obrázok 1: Grafické znázornenie výpočtu Euklidovskej vzdialenosti
Hammingova vzdialenosť (city-block distance) Obrázok 2: Grafické znázornenie výpočtu Hammingovej vzdialenosti
Prehľad mier vzdialenosti • Euklidovská vzdialenosť Dij= (xik- xjk)2 • Hammingova vzdialenosť Dij= |xik- xjk| • Minkovskeho vzdialenosť Dij= (|xik- xjk|r ) 1/r • Mahalanobisova vzdialenosť Dij= (Xi – Xj)' .S-1.(Xi – Xj)
Zhluková analýza • výber druhu zhlukovacieho postupu • hierarchický postup • úplná analýza štatistického súboru • výsledok možno zobraziť pomocou hierarchického grafu - dendrogramu • aglomeratívny • v prvom kroku je každá jednotka samostatným zhlukom • v poslednom kroku sú všetky jednotky v jednom zhluku • divízny • v prvom kroku sú všetky jednotky v jednom zhluku • v poslednom kroku každá jednotka predstavuje zhluk
Zhluková analýza • výber druhu zhlukovacieho postupu • nehierarchický postup • vopred určený počet zhlukov • iteratívny postup určenia ich stredov • postupné zaraďovanie jednotiek k vybraným stredom
výber zhlukovacej metódy hierarchické – aglomeratívne metóda najbližšieho suseda (nearest-neighbor) poznáme maticu euklidovských vzdialeností vyberieme spojenie na základe min vzdialenosti nové spojenie = min dij tzv. reťaziaci efekt Zhluková analýza Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najbližšieho suseda
Zhluková analýza • výber zhlukovacej metódy • hierarchické – aglomeratívne • metóda najvzdialenejšieho suseda (furthest-neighbor) • poznáme maticu euklidovských vzdialeností • nové spojenie = max dij • vyberieme spojenie, prepočítame, atď. • konzistentné, izolované zhluky Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najvzdialenejšieho suseda
Zhluková analýza • výber zhlukovacej metódy • hierarchické – aglomeratívne • metóda priemernej väzby (group average) • poznáme maticu euklidovských vzdialeností • vzdialenosť medzi dvomi zhlukmi je vypočítaná ako priemerná min vzdialenosť prvkov
Zhluková analýza • výber zhlukovacej metódy • hierarchické – aglomeratívne • centroidná metóda (centroid method) • poznáme maticu euklidovských vzdialeností • každý novovytvorený zhluk je nahradený priemerným prvkom = centroidom • nové spojenie = štvorec euklidovskej vzdialenosti • nevýhodou sú inverzie • mediánová metóda (median method) • reprezentantom zhluku je jeho medián • vylepšenie centroidnej metódy
Zhluková analýza • výber zhlukovacej metódy • hierarchické – aglomeratívne • Wardova metóda (Ward method) • nepočítame maticu vzdialeností • kritérium spojenia = max vnútrozhlukovej homogenity • mierou homogenity ESS • inicializačné spojenie znamená minimálny prírastok ESS = ΣΣ(Xij – priemXtj) 2 • zhluky rovnakej veľkosti a tvaru
Zhluková analýza • výber zhlukovacej metódy • nehierarchické • Metóda typických bodov (seeded) • seed = typický predstaviteľ zhluku • ostatné objekty rozdelené podľa euklidovskej vzdialenosti od seed • Metóda k-priemerov • celý rad modifikácii • Metóda optimálnych stredov alebo medoidov • medoid – optimálny stred zhluku • jeho priemerná vzdialenosť k ostatným objektom v zhluku je minimálna • Fuzzy zhlukovanie • umožňuje zaradenie jedného objektu do viacerých zhlukov • prítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je medzi 0 a 1 – tzv. fuzifikácia zhlukovej konfigurácie • väčší počet prijateľných riešení
Zhluková analýza • Nehierarchické zhlukovanie využíva tri postupy: • sekvenčný: najprv sa určí prvý predstaviteľ zhluku, ku ktorému sa na základe špecifikovanej vzdialenosti priradia objekty, potom sa určí druhý predstaviteľ a proces sa opakuje, • paralelný: na začiatku sa určí niekoľko predstaviteľov, ku ktorým sú jednotlivé objekty priraďované paralelne, • optimalizačný: podobný predchádzajúcemu postupu avšak umožňuje znovuzaradenie objektu.
Porovnanie zhlukovacích metód • Hierarchické metódy: • v minulosti populárnejšie (za najlepšie metódy považované Wardová, metóda priemernej väzby a centroidná metóda) • rýchle, menšia spotreba stojového času a jednoduché • poskytujú podrobnú štruktúru dát, nie je potrebné poznať počet zhlukov na začiatku analýzy • na ich výsledky majú vplyv odľahlé pozorovania • nevhodné na analýzu veľmi veľkých súborov
Porovnanie zhlukovacích metód • Nehierarchické metódy: • v poslednom čase sa využívajú viac • vyžadujú zadanie počtu zhlukov na začiatku analýzy • výsledky sú ovplyvnené praktickými znalosťami užívateľa a objektívnou teóriou, ako stanoviť predstaviteľov zhlukov • nie sú natoľko ovplyvnené odľahlými pozorovaniami • poskytujú viacero prijateľných alternatív štruktúry dát
Zhluková analýza • určenie počtu významných zhlukov • heuristický prístup • ukazovatele kvality zhlukovania • Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD), • Koeficient determinácie (RSQ), • Semiparciálny koeficient determinácie (SPRSQ), • Vzdialenosť zhlukov (CD).
Zhluková analýza • určenie počtu významných zhlukov • RMSSTD - homogenita nového zhluku • malé • SPRSQ – homogenita spojených zhlukov • malé • RSQ – heterogenita zhlukov • vysoké • CD – homogenita spojených zhlukov • malé
Zhluková analýza • určenie počtu významných zhlukov • v SASe cubic clustering criterion (CCC) • Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame. • Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov. • Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá. • Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz. • Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.
Zhluková analýza • interpretácia zhlukov • dendrogram • grafická analýza • popisná štatistika • hodnotiaca miera je zhlukový centroid (ťažisko zhluku) podľa jednotlivých premenných • popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho hodnotenia
Bližšie pozri: Stankovičová, Vojtková: Viacrozmerné štatistické metódy s aplikáciami, Bratislava: Iura edition, 2007, ISBN 978-80-8078-152-1