1 / 44

ANALIZA SKUPIEŃ

ANALIZA SKUPIEŃ. (cluster analysis). Założenia. Dane są zbiór obiektów będących przedmiotem klasyfikacji zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji obserwacje K cech dla N obiektów tworzą macierz.

lazar
Download Presentation

ANALIZA SKUPIEŃ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALIZA SKUPIEŃ (cluster analysis)

  2. Założenia Dane są • zbiór obiektów będących przedmiotem klasyfikacji • zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji • obserwacje K cech dla N obiektów tworzą macierz

  3. Punkt wyjścia procedur klasyfikacji (grupowania) zbioru obiektówzdefiniowanie miary nie/podobieństwa obiektów Najczęstsze rozwiązanie  odległość OBIEKTÓW = miara ich niepodobieństwa

  4. Odległość euklidesowa Odległość miejska (Manhattan) Odległość Czebyszewa Odległość (metryka) Mahalanobisa !!!

  5. ODLEGŁOŚĆ MIĘDZY ROZŁĄCZNYMI SKUPIENIEM *i ** • Na podstawie odległości „rzeczywistych” obiektów (np. metoda najdalszego sąsiada, najbliższego sąsiada) • Na podstawie odległości obiektów-reprezentantów (np. metoda środków ciężkości)

  6. METODY KLASYFIKACJI Metody hierarchiczne (wynik – dendrogram) • Procedury aglomeracyjne • Procedury podziału Metody niehierarchiczne • metoda Hartigana • metoda kul • metoda kostek • metoda podziału przestrzennego • metoda taksonomii stochastycznej • metoda k-średnich

  7. SCHEMAT HIERARCHICZNYCH PROCEDUR GRUPOWANIA Etap I: Poszukuje się pary skupień najmniej odległych, tzn. Etap II: Skupienia p oraz qłączy się w jedno skupienie, zachowując dla niego numer p, czyli p = pq Etap III: Z macierzy D usuwane są kolumna i wiersz q (zmienia się wymiar na N-1)

  8. Etap IV: Obliczane są odległości dpj między „nowym” skupieniem p a pozostałymi skupieniami i wstawiane są do macierzy D w miejsce kolumny/ wiersza p. Powrót do etapu I. Koniec procedury – wszystkie obiekty = jedno skupienie.

  9. Wykorzystanie pakietu STATISTICA

  10. Uruchamianie „Analizy skupień” w programie Statistica – wybierane opcje • Statystyka • Wielowymiarowe techniki eksploracyjne • Analiza skupień

  11. Wybór metody grupowania. Możliwe są dwa zasadnicze warianty: • Aglomeracja (czyli wybór metody typu aglomeracyjnego) • Grupowanie metodą k – średnich (metoda „optymalizacyjna”)

  12. OPCJA „AGLOMERACJA” – DOSTĘPNE METODY Metoda pojedynczego wiązania (najbliższego sąsiada) – łańcuchy obiektów Metoda pełnego wiązania (najdalszego sąsiada) – naturalne „kępki” obiektów Metoda średnich połączeń (średnia odległość) – „kępki” Metoda średnich połączeń ważonych (średnia odległość ważona liczebnością skupień Metoda środków ciężkości – odległość skupień = odległość środków ciężkości (centroidów) Metoda ważonych środków ciężkości Metoda Warda – szacowanie odległości skupień oparte na analizie wariancji (zmienność wewnątrz- i międzygrupowa)

  13. Po wyborze opcji „Aglomeracja” Opcja więcej

  14. Po przeprowadzeniu obliczeń

  15. PRZYKŁAD

  16. To warto jeszcze wiedzieć o metodach aglomeracyjnych!

  17. Metoda k-średnich • PROCEDURA: • wstępne losowe przyporządkowanie obiektów do skupień • iteracyjne przenoszenie obiektów między skupieniami, by zminimalizować zmienność wewnątrzgrupową i zmaksymalizować zmienność międzygrupową.

  18. Odległości euklidesowe skupień Średnie wartości zmiennych w skupieniach Analiza wariancji

  19. Analiza wariancji

  20. FUNKCJA DYSKRYMINACYJNA

  21. Wyprowadzenie

  22. Równanie funkcji dyskryminacyjnej: Rotacja zapasów w dniach Rotacja należności w dniach Płynność bieżąca

  23. Podstawa klasyfikacji

  24. OCENA JAKOŚCI FUNKCJI DYSKRYMINACYJNEJ Miara ogólnej zdolności dyskryminacyjnej modelu – współczynnik lambda Wilksa Wpływ dodatkowych zmiennych na zdolność dyskryminacyjną ……

  25. Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (I) Cząstkowy współczynnik Wilks’a wartość współczynnika lambda Wilksa dla modelu po wprowadzeniu do niego danej zmiennej wartość współczynnika lambda Wilksa dla modelu przed wprowadzeniem danej zmiennej. określa mnożnikową zmianę wartości statystyki lambda, spowodowaną wprowadzeniem do modelu danej zmiennej Xk. Wartość współczynnika zawiera się w przedziale <0, 1>

  26. Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (II) statystyka k Wilks’a (dla modelu!) Wartość jaką przyjęłaby statystyka lambda Wilks’a dla ogólnego modelu, gdyby wyłączyć z niego daną zmienną Xk. k  <0, 1>

  27. Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (III) współczynnik tolerancji Tk Rk oznacza współczynnik korelacji wielorakiej między daną zmienną Xka pozostałymi zmiennymi w modelu (< 90%)

  28. Macierz klasyfikacji

  29. Analiza dyskryminacyjna w pakiecie STATISTICA

  30. Podsumowanie – zmienne w modelu Zmiana Lambdy dla modelu po wprowadzeniu danej X Lambda dla modelu przed wprowadzeniem danej X

More Related