200 likes | 349 Views
VII EKSPLORACJA DANYCH. Grupowanie danych: definicja i cel. Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów, które są podobne do siebie nawzajem i niepodobne do rekordów z innych grup.
E N D
VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów, które są podobne do siebie nawzajem i niepodobne do rekordów z innych grup. Grupowanie różni się od klasyfikacji tym, że w przypadku grupowania nie ma zmiennej celu. Zadanie grupowania nie próbuje klasyfikować, szacować lub przewidywać wartości zmiennej celu. Zamiast tego, algorytm grupowania próbuje podzielić cały zbiór danych w stosunkowo zgodne podgrupy lub grupy, przy czym podobieństwo rekordów wewnątrz grup jest maksymalizowane, a podobieństwo do rekordów spoza grupy minimalizowane.
VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Grupowanie jest często wykorzystywane jako krok wstępny do procesu eksploracji danych, z wynikowymi grupami użytymi jako dane wejściowe do innej techniki, takiej jak sieci neuronowe. Z powodu dużego rozmiaru wielu baz danych, często jest korzystnie najpierw przeprowadzić analizę skupień, aby zredukować przestrzeń przeszukiwań dla algorytmów.
VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Cel grupowania: • poznanie rozkładu przykładów (danych) • wyróżnienie przypadków, tych, które można uznać za typowe i tych, które za wyjątki • znajdowanie naturalnego podziału danych na istotne podgrupy • dekompozycja danych na części, które są łatwiejsze do opisania – bardziej jednolite • uzupełnianie brakującej informacji
VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Przykłady zadań grupowania w badaniach: • redukcję wymiarów, gdy zbiór ma setki atrybutów • grupowanie ekspresji genów, gdzie bardzo dużo genów może wykazywać podobne zachowanie Przykłady zadań grupowania w biznesie: • namierzenie grupy potencjalnych klientów pewnego produktu z niszy rynkowej wyprodukowanego przez małą firmę z małym budżetem reklamowym • podział zachowań finansowych na korzystne i niepewne w celu kontroli obliczeń
VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Przykłady zadań grupowania w marketingu: • identyfikacja grup ubezpieczonych w towarzystwach ubezpieczeniowych generujących wysokie koszty napraw Przykłady zadań grupowania w geodezji i kartografii: • identyfikacja obszarów o podobnych glebach na podstawie zdjęć z obserwacji Ziemi • lokalizacje epicentrów trzęsień Ziemi, na podstawie zaobserwowanych defektów kontynentów • rozpoznanie potrzeb rozwojowych miasta, na podstawie grupowania domów o określonej wartości, lokalizacji, itp.
VII EKSPLORACJA DANYCH Grupowanie danych: metody Metody grupowania: • metody hierarchiczne, polegają na łączeniu pojedynczych elementów, wg założonego kryterium odległości (elementy podobne) • metody niehierarchiczne, polegają na wstępnym podzieleniu zbioru na określoną liczbę klas, a następnie modyfikowaniu podziału (przez przenoszenie elementów z grupy do grupy) prowadzącym do poprawy tego podziału
VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Uogólniony algorytm metod hierarchicznych: • początkowo każda obserwacja traktowana jest jako osobne skupienie • następnie tworzona jest macierz odległości pomiędzy kolejnymi obserwacjami • określa się odległości pomiędzy poszczególnymi skupieniami i na ich podstawie tworzy się nowe skupienia obiektów • wyniki przedstawiane są za pomocą drzewka połączeń
VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Wybór metody aglomeracji: • metoda najbliższego sąsiada • metoda najdalszego sąsiada • metoda średniej grupowej • metoda środka ciężkości • metoda mediany (ważonych środków ciężkości)
VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Wady metod hierarchicznych • brak oczywistego kryterium stopu dla uzyskania względnie jednorodnych skupień • otrzymane raz skupienie nie może być rozłączone, czyli ewentualny wcześniejszy błąd nie może być skorygowany • w metodach aglomeracyjnych nie jest znana z góry ani liczba grup (skupień) ani liczba obiektów w poszczególnych grupach
VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Algorytm k – średnich: procedura postępowania • wybieramy losowo tyle punktów w przestrzeni, na ile grup dzielimy zbiór danych • obliczamy odległości wszystkich elementów zbioru od wylosowanych punktów • grupujemy zgodnie z bliskością elementów zbioru od punktów początkowych • obliczamy centroidy grup jako średnie elementów grupy • powtarzamy punkty 2 i 3 aż do osiągnięcia stabilności
VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich
ZPG W = ZWG VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wskaźnik jakości algorytmu k - średnich • ZPG – zmienność pomiędzy grupami • ZWG – zmienność wewnątrz grupy
ZPG W = ZWG k ZWG = ΣΣ d(mij, ci) i=1 j VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wskaźnik jakości algorytmu k - średnich m12 m11 m21 m13 c1 m14 m15 c2 ZPG = d (c1, c2) m26
VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Zalety algorytmu k - średnich • sprawny – η(nkt), gdzie n jest liczbą obserwacji, k jest liczbą klasterów, a t jest liczbą iteracji, zazwyczaj k, t << n • obliczenia kończą się po osiągnięciu minimum lokalnego • łatwy w zaprogramowaniu
VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wady algorytmu k - średnich • możliwość stosowania jedynie do danych, dla których możliwe jest obliczenie średnich; wyłącza to zbiory z danymi kategorycznymi • konieczność wstępnego określenia liczby k (liczby grup) przed rozpoczęciem modelowania • niezdolność do radzenia sobie z danymi zaszumionymi i z danymi odstającymi
VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wady algorytmu k - średnich • nie do zastosowania w przypadku, gdy modelowana grupa ma kształt wklęsły
VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel
VII EKSPLORACJA DANYCH Grupowanie danych: zastosowanie
VII EKSPLORACJA DANYCH Grupowanie danych: zastosowanie
VII EKSPLORACJA DANYCH Grupowanie danych: podsumowanie Uwaga: niezależnie od zastosowanej metody wszystkie podziały będą się mieścić pomiędzy dwoma skrajnymi przypadkami: • skrajny przypadek: wszystkie obiekty rozkładają się tak, że uzyskujemy skupienia jednoelementowe (zbiór n elementów dzielony jest na n skupień jednoelementowych) • skrajny przypadek: zbiór elementów jest tak jednorodny, że nie możliwe jest rozłożenie jego na podzbiory, tzn. otrzymujemy jedno skupienie n-elementowe