470 likes | 837 Views
ANALIZA SKUPIEŃ. (cluster analysis). Założenia. Dane są zbiór obiektów będących przedmiotem klasyfikacji zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji obserwacje K cech dla N obiektów tworzą macierz.
E N D
ANALIZA SKUPIEŃ (cluster analysis)
Założenia Dane są • zbiór obiektów będących przedmiotem klasyfikacji • zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji • obserwacje K cech dla N obiektów tworzą macierz
Punkt wyjścia procedur klasyfikacji (grupowania) zbioru obiektówzdefiniowanie miary nie/podobieństwa obiektów Najczęstsze rozwiązanie odległość OBIEKTÓW = miara ich niepodobieństwa
Odległość euklidesowa Odległość miejska (Manhattan) Odległość Czebyszewa Odległość (metryka) Mahalanobisa !!!
ODLEGŁOŚĆ MIĘDZY ROZŁĄCZNYMI SKUPIENIEM *i ** • Na podstawie odległości „rzeczywistych” obiektów (np. metoda najdalszego sąsiada, najbliższego sąsiada) • Na podstawie odległości obiektów-reprezentantów (np. metoda środków ciężkości)
METODY KLASYFIKACJI Metody hierarchiczne (wynik – dendrogram) • Procedury aglomeracyjne • Procedury podziału Metody niehierarchiczne • metoda Hartigana • metoda kul • metoda kostek • metoda podziału przestrzennego • metoda taksonomii stochastycznej • metoda k-średnich
SCHEMAT HIERARCHICZNYCH PROCEDUR GRUPOWANIA Etap I: Poszukuje się pary skupień najmniej odległych, tzn. Etap II: Skupienia p oraz qłączy się w jedno skupienie, zachowując dla niego numer p, czyli p = pq Etap III: Z macierzy D usuwane są kolumna i wiersz q (zmienia się wymiar na N-1)
Etap IV: Obliczane są odległości dpj między „nowym” skupieniem p a pozostałymi skupieniami i wstawiane są do macierzy D w miejsce kolumny/ wiersza p. Powrót do etapu I. Koniec procedury – wszystkie obiekty = jedno skupienie.
Uruchamianie „Analizy skupień” w programie Statistica – wybierane opcje • Statystyka • Wielowymiarowe techniki eksploracyjne • Analiza skupień
Wybór metody grupowania. Możliwe są dwa zasadnicze warianty: • Aglomeracja (czyli wybór metody typu aglomeracyjnego) • Grupowanie metodą k – średnich (metoda „optymalizacyjna”)
OPCJA „AGLOMERACJA” – DOSTĘPNE METODY Metoda pojedynczego wiązania (najbliższego sąsiada) – łańcuchy obiektów Metoda pełnego wiązania (najdalszego sąsiada) – naturalne „kępki” obiektów Metoda średnich połączeń (średnia odległość) – „kępki” Metoda średnich połączeń ważonych (średnia odległość ważona liczebnością skupień Metoda środków ciężkości – odległość skupień = odległość środków ciężkości (centroidów) Metoda ważonych środków ciężkości Metoda Warda – szacowanie odległości skupień oparte na analizie wariancji (zmienność wewnątrz- i międzygrupowa)
Po wyborze opcji „Aglomeracja” Opcja więcej
To warto jeszcze wiedzieć o metodach aglomeracyjnych!
Metoda k-średnich • PROCEDURA: • wstępne losowe przyporządkowanie obiektów do skupień • iteracyjne przenoszenie obiektów między skupieniami, by zminimalizować zmienność wewnątrzgrupową i zmaksymalizować zmienność międzygrupową.
Odległości euklidesowe skupień Średnie wartości zmiennych w skupieniach Analiza wariancji
Równanie funkcji dyskryminacyjnej: Rotacja zapasów w dniach Rotacja należności w dniach Płynność bieżąca
OCENA JAKOŚCI FUNKCJI DYSKRYMINACYJNEJ Miara ogólnej zdolności dyskryminacyjnej modelu – współczynnik lambda Wilksa Wpływ dodatkowych zmiennych na zdolność dyskryminacyjną ……
Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (I) Cząstkowy współczynnik Wilks’a wartość współczynnika lambda Wilksa dla modelu po wprowadzeniu do niego danej zmiennej wartość współczynnika lambda Wilksa dla modelu przed wprowadzeniem danej zmiennej. określa mnożnikową zmianę wartości statystyki lambda, spowodowaną wprowadzeniem do modelu danej zmiennej Xk. Wartość współczynnika zawiera się w przedziale <0, 1>
Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (II) statystyka k Wilks’a (dla modelu!) Wartość jaką przyjęłaby statystyka lambda Wilks’a dla ogólnego modelu, gdyby wyłączyć z niego daną zmienną Xk. k <0, 1>
Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (III) współczynnik tolerancji Tk Rk oznacza współczynnik korelacji wielorakiej między daną zmienną Xka pozostałymi zmiennymi w modelu (< 90%)
Podsumowanie – zmienne w modelu Zmiana Lambdy dla modelu po wprowadzeniu danej X Lambda dla modelu przed wprowadzeniem danej X