150 likes | 378 Views
Analiza skupień. Analiza skupień służy do podziału danego zbioru na rozłączne podzbiory według określonej miary podobieństwa identyfikowanej z odległością pomiędzy obiektami. Klasyfikacja algorytmów analizy skupień Sekwencyjne Równoległe Aglomeratywne Podziałowe
E N D
Analiza skupień Analiza skupień służy do podziału danego zbioru na rozłączne podzbiory według określonej miary podobieństwa identyfikowanej z odległością pomiędzy obiektami.
Klasyfikacja algorytmów analizy skupień Sekwencyjne Równoległe Aglomeratywne Podziałowe Hierarchiczne Niehierarchiczne Monotetyczne Politetytyczne (“fuzzy”) Deterministyczne Probabilistyczne
Klasyfikacja monotetyczna: każdy obiekt danej klasy mieć wszystkie cechy charakterystyczne dla tej klasy obiektów. Klasyfikacja politetyczna: obiekt danej klasy musi mieć minimalną liczbę cech charakterystycznych dla tej klasy. cechy obiekty Ilustracja różnicy pomiędzy klasyfikacją monotetyczną a politetyczną. Obiekty 1-4 tworzą jedną klasę politetyczną a obiekty 5-6 oraz 7-8 mogą być zaklasyfikowane do dwóch różnych klas monotetycznych. Przykład klasyfikacji politetycznej: amnestia maturalna Giertycha.
Miary odległości/podobieństwa używane przy klasyfikacji obiektów y x y x
Przykład wyniku hierarchicznej analizy skupień (dendrogram) obiekty podobieństwo (odległość)
Hierarchiczna aglomeratywna analiza skupień • Algorytm minimalnego drzewa (single linkage clustering; minimal spanning tree clustering) • Algorytm pełnych połączeń (complete linkage clustering) • Algorytm połączeń pośrednich (intermediate linkage) • Algorytm średniej nieważonej (unweighted arithmetic average clustering; UPGMA) • Algorytm średniej ważonej (weighted arithmetic average clustering; WPGMA) • Algorytm centroidów nieważonych (unweighted centroid clustering; UPGMC) • Algorytm centroidów ważonych (weighted centroid clustering; WPGMC) • Metoda najmniejszej wariancji Warda (Ward’s minimum variance method) • Ogólny model aglomeratywnej analizy skupień (general agglomerative clustering model) • Przystosowaczy algorytm analizy skupień (flexible clustering) • Analiza informacji (information analysis)
Algorytm minimalnego drzewa (najkrótszego połączenia) Dwa skupienia (klastry) łączą się w jedno, jeżeli najkrótsza odległość pomiędzy elementem x należącym do skupienia A i elementem y należącym do skupienia B jest mniejsza niż zadana odległość progowa. Wada: jeżeli dwa średnio odległe skupienia są połączone “ścieżką” punktów zostaną zaklasyfikowane jako pojedyncze skupienie.
Najprostszy algorytm podziału metodą najkrótszego połączenia przy starcie z niezgrupowanych obiektów i kryterium odległości d<d0 Znajdź dwa najmniej odległe od siebie obiekty d<d0 ? koniec N T Znajdź obiekt najmniej odległy od któregokolwiek z obiektów skupienia Skupienie jest kompletne; dalsza analiza dla obiektów poza skupieniami d<d0 ? N T Dodaj obiekt do skupienia
Po znalezieniu skupień dla najmniejszej wartości d0 zwiększamy d0 i w podobny sposób prowadzimy łączenie już znalezionych skupień w większe. Algorytm kompletnych połączeń: dwa skupienia łączą się w jedno, jeżeli największa odległość między ich elementami jest mniejsza od zadanego kryterium. Algorytm średnich połączeń: dwa skupienia łączą się w jedno, jeżeli średnia odległość pomiędzy ich elementami jest mniejsza od zadanego kryterium. Algorytmy centroidów: liczy się odległość obiektu od środka dotychczasowego skupienia.
Zestawienie występowania gatunków karalucha w zależności od miejsca Miejsce występowania Gatunek
Porównanie działania algorytmu najkrótszego i najdłuższego połączenia Najmniejsza odległość Największa odległość Współczynnik korelacji
Metoda najmniejszej wariancji Dzielimy zbiór obiektów na k rodzin tak, aby zminimalizować wariancję w obrębie każdej rodziny.