1 / 13

Analiza skupień

Analiza skupień. Analiza skupień służy do podziału danego zbioru na rozłączne podzbiory według określonej miary podobieństwa identyfikowanej z odległością pomiędzy obiektami. Klasyfikacja algorytmów analizy skupień Sekwencyjne Równoległe Aglomeratywne Podziałowe

presta
Download Presentation

Analiza skupień

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analiza skupień Analiza skupień służy do podziału danego zbioru na rozłączne podzbiory według określonej miary podobieństwa identyfikowanej z odległością pomiędzy obiektami.

  2. Klasyfikacja algorytmów analizy skupień Sekwencyjne Równoległe Aglomeratywne Podziałowe Hierarchiczne Niehierarchiczne Monotetyczne Politetytyczne (“fuzzy”) Deterministyczne Probabilistyczne

  3. Klasyfikacja monotetyczna: każdy obiekt danej klasy mieć wszystkie cechy charakterystyczne dla tej klasy obiektów. Klasyfikacja politetyczna: obiekt danej klasy musi mieć minimalną liczbę cech charakterystycznych dla tej klasy. cechy obiekty Ilustracja różnicy pomiędzy klasyfikacją monotetyczną a politetyczną. Obiekty 1-4 tworzą jedną klasę politetyczną a obiekty 5-6 oraz 7-8 mogą być zaklasyfikowane do dwóch różnych klas monotetycznych. Przykład klasyfikacji politetycznej: amnestia maturalna Giertycha.

  4. Miary odległości/podobieństwa używane przy klasyfikacji obiektów y x y x

  5. Przykład wyniku hierarchicznej analizy skupień (dendrogram) obiekty podobieństwo (odległość)

  6. Hierarchiczna aglomeratywna analiza skupień • Algorytm minimalnego drzewa (single linkage clustering; minimal spanning tree clustering) • Algorytm pełnych połączeń (complete linkage clustering) • Algorytm połączeń pośrednich (intermediate linkage) • Algorytm średniej nieważonej (unweighted arithmetic average clustering; UPGMA) • Algorytm średniej ważonej (weighted arithmetic average clustering; WPGMA) • Algorytm centroidów nieważonych (unweighted centroid clustering; UPGMC) • Algorytm centroidów ważonych (weighted centroid clustering; WPGMC) • Metoda najmniejszej wariancji Warda (Ward’s minimum variance method) • Ogólny model aglomeratywnej analizy skupień (general agglomerative clustering model) • Przystosowaczy algorytm analizy skupień (flexible clustering) • Analiza informacji (information analysis)

  7. Algorytm minimalnego drzewa (najkrótszego połączenia) Dwa skupienia (klastry) łączą się w jedno, jeżeli najkrótsza odległość pomiędzy elementem x należącym do skupienia A i elementem y należącym do skupienia B jest mniejsza niż zadana odległość progowa. Wada: jeżeli dwa średnio odległe skupienia są połączone “ścieżką” punktów zostaną zaklasyfikowane jako pojedyncze skupienie.

  8. Najprostszy algorytm podziału metodą najkrótszego połączenia przy starcie z niezgrupowanych obiektów i kryterium odległości d<d0 Znajdź dwa najmniej odległe od siebie obiekty d<d0 ? koniec N T Znajdź obiekt najmniej odległy od któregokolwiek z obiektów skupienia Skupienie jest kompletne; dalsza analiza dla obiektów poza skupieniami d<d0 ? N T Dodaj obiekt do skupienia

  9. Po znalezieniu skupień dla najmniejszej wartości d0 zwiększamy d0 i w podobny sposób prowadzimy łączenie już znalezionych skupień w większe. Algorytm kompletnych połączeń: dwa skupienia łączą się w jedno, jeżeli największa odległość między ich elementami jest mniejsza od zadanego kryterium. Algorytm średnich połączeń: dwa skupienia łączą się w jedno, jeżeli średnia odległość pomiędzy ich elementami jest mniejsza od zadanego kryterium. Algorytmy centroidów: liczy się odległość obiektu od środka dotychczasowego skupienia.

  10. Zestawienie występowania gatunków karalucha w zależności od miejsca Miejsce występowania Gatunek

  11. Porównanie działania algorytmu najkrótszego i najdłuższego połączenia Najmniejsza odległość Największa odległość Współczynnik korelacji

  12. Metoda najmniejszej wariancji Dzielimy zbiór obiektów na k rodzin tak, aby zminimalizować wariancję w obrębie każdej rodziny.

More Related