1 / 92

Wielowymiarowe metody analizy i wizualizacji danych

Wielowymiarowe metody analizy i wizualizacji danych. 9 zmiennych – korelacje każdej z każdą. Współwystępowanie kategorii wykształcenia, miejsca zamieszkania i dochodu oraz miejsca zakupu ekożywności. Analiza skupień.

onella
Download Presentation

Wielowymiarowe metody analizy i wizualizacji danych

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wielowymiarowe metody analizy i wizualizacji danych

  2. 9 zmiennych – korelacje każdej z każdą

  3. Współwystępowanie kategorii wykształcenia, miejsca zamieszkania i dochodu oraz miejsca zakupu ekożywności

  4. Analiza skupień • Analiza skupień jest techniką wielowymiarową pozwalającą wykrywać współzależności między obiektami. • Związana jest ściśle z zagadnieniami klasyfikowania i porządkowania otaczającej nas rzeczywistości

  5. Cele analizy skupień • Eksploracja danych • Kontrola danych • Poszukiwanie obiektów nietypowych (odstających) • Wykrycie wewnętrznej struktury obiektów • Wykrywanie współzależności między zmiennymi • Typologia • Weryfikacja istniejącej typologii • Propozycje klasyfikacji obiektów • Redukcja danych • Agregacja danych • Wybór reprezentantów grup

  6. Odwzorowanie obiektów w przestrzeni n - wymiarowej • Obiekt opisany za pomocą n zmiennych X1, X2,…Xn przedstawiamy jako punkt x=(x1,…,xn) w przestrzenin-wymiarowej • Celem podziału na grupy jest, aby obiekty podobne (reprezentowane przez punkty znajdujące się blisko siebie w przestrzeni) znalazły się w tej samej grupie, a obiekty niepodobne (reprezentowane przez punkty leżące w dużej odległości w przestrzeni) znalazły się w różnych grupach

  7. Analiza skupień(przykład obiektów dających podzielić się na 5 grup)

  8. Problemy do rozstrzygnięcia • Jak odwzorować obiekty w przestrzeni? • Wybór zmiennych • Normalizacja zmiennych • Jak mierzyć odległości między obiektami? • Jaką metodę grupowania zastosować?

  9. Normalizacja • Normalizacja ma na celu doprowadzenie obiektów lub zmiennych do porównywalnych wielkości. Problem ten dotyczy zmiennych mierzonych w różnych jednostkach (np. sztuki, czas, waluta). Przykład • Rozważmy 3 obiekty i dwie zmienne: wiek osoby mierzony w latach i jej dochód mierzony w złotych lub tys. zł.

  10. Przekształcenia liniowe zmiennych - (standaryzacja) , gdzie Współczynnik A nie wpływa na odległości między obiektami Współczynnik B pełni rolę czynnika skalującego. Szczególnie ważnym rodzajem przekształcenia jest standaryzacja

  11. Metryka przestrzeni • Odległość euklidesowa • Odległość Minkowskiego Jej szczególnymi przypadkami są: • odległość miejska (p=1) • odległość euklidesowa (p=2) • odległość Czebyszewa (p= ) • ponadto kwadrat odległości euklidesowej

  12. Metody grupowania • Hierarchiczne tworzą drzewa binarne • Optymalizacyjno-iteracyjne poprawiają wstępny podział w kolejnych iteracjach • Pozostałe np. tworzą skupienia nierozłączne, niezupełne, rozmyte

  13. Metody hierarchiczne Metody najczęściej stosowane w praktyce. Uzyskana hierarchia (jedne skupienia zawierają się w innych) pozwala na uzyskanie pełnej informacji o strukturze skupień. Ograniczenie tych metod to wymagania pamięci, co powoduje, że w przypadku dużych zbiorów danych nie mogą być stosowane. Metody hierarchiczne dzielimy na metody aglomeracyjne i podziałowe. Punktem wyjścia w metodach aglomeracyjnych jest określenie odległości pomiędzy obiektami. metody aglomeracyjne C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 5 5 -+---+ 6 6 -+ +-----------------------+ 7 7 -----+ +-------------------+ 3 3 -+---------------------------+ I 4 4 -+ I 1 1 -----------------------+-------------------------+ 2 2 -----------------------+ metody podziałowe

  14. Metody aglomeracyjne • Najbliższego sąsiedztwa • Najdalszegosąsiedztwa • Mediany • Środka ciężkości • Średniej odległości wewnątrz skupień • Średniej odległości między skupieniami • Minimalnej wariancji Warda

  15. Porównanie sposobu wyznaczania odległości między skupieniami w wybranychmetodach aglomeracyjnych metoda najbliższego sąsiedztwa metoda najdalszego sąsiedztwa metoda mediany metoda środka ciężkości metoda średniej grupowej

  16. metoda najbliższego sąsiedztwa metoda najdalszego sąsiedztwa metoda mediany metoda średniej grupowej metoda środka ciężkości metoda Warda

  17. Metody optymalizacyjno-iteracyjne(k-średnich) • Ustalamy liczbę grup (k) • Wybieramy (w sposób losowy lub ustalony z góry) k punktów przestrzeni, stanowiących tzw. zalążki środków ciężkości skupień (cluster seeds) • Każdy z obiektów (i=1,...,n) przydzielamy do grupy o najbliższym dla niego środku ciężkości • Dla (j=1,...,k) obliczamy nowe środki ciężkości jako średnie arytmetyczne wszystkich obiektów należących do danej grupy • Powtarzamy kroki 3 i 4 aż do chwili, gdy nie następują przesunięcia obiektów między grupami

  18. Metody optymalizacyjno-iteracyjne(k-średnich) • Jednocześnie obliczana jest funkcja błędu podziału - ogólna suma kwadratów odległości wewnątrzgrupowych liczonych od środków ciężkości grup: tzn. gdzie d jest odległością euklidesową. W praktyce proces jest zbieżny po kilku lub kilkunastu iteracjach.

  19. Ustalanie liczby skupień Liczbę skupień wybiera się na podstawie przesłanek merytorycznych albo szacuje się je metodami hierarchicznymi. Można dokonać obliczeń dla wszystkich wartości k z ustalonego przedziału: Możliwe są różne podejścia: • Arbitralny sposób np. przyjmuje się współrzędne pierwszych k obiektów (nie zawierające braków danych) jako zalążki środków ciężkości . • Losowy wybór środków ciężkości, przy czym może to być losowy wybór k obiektów ze zbioru danych albo losowy wybór k punktów przestrzeni niekoniecznie pokrywających się z położeniem obiektów. • Wykorzystanie algorytmu optymalizującego w pewien sposób położenie początkowych środków ciężkości np. przez uwzględnianie k obiektów leżących daleko względem siebie. • Przyjęcie jako początkowych środków ciężkości uzyskanych na podstawie podziału otrzymanego inna metodą, głównie jedną z metod hierarchicznych.

  20. SKUPIENIE (CLUSTER) – układ podobnych obiektów. Podobieństwo pary obiektów należących do danego skupienia jest większe niż podobieństwo obiektów należących do różnych grup. Skupienia są rozłączne – jeden obiekt należy tylko do jednej kategorii.

  21. Środek ciężkości– punkt, którego współrzędne równe są wartościom średnim zmiennych, ale tylko dla obiektów należących do tego skupienia.

  22. Procedura aglomeracyjna Macierzn obserwacji i pzmiennych jest znana. Konstruujemy macierz odległości: i,k=1,2,..,n dik – odległość między dwoma obiektami Szukamy pary obiektów najbardziej podobnych (o najmniejszej odległości). Łączymy je w pierwsze skupienie. Środek ciężkości tego skupienia wyznaczany jest jako średnia wartość każdej zmiennej dla tych dwóch obiektów.

  23. 2. Wymiar macierzy D redukujemy o 1. I znowu liczymy odległości… 3. Krok 1 i 2 powtarzamy do momentu, aż wszystkie obiekty znajdą się w jednym skupieniu.

  24. Przykład: 10 uniwersytetów, opisanych przez 3 zmienne: X1 – liczba studentów (2005) X2 – liczba studentów studiów doktoranckich (2005) X3 – liczba profesorów (2005)

  25. Standaryzacja – ponieważ zmienne wyrażone są w różnych jednostkach

  26. KROK 1. macierz odległości D Najmniejszy dystans – dla obserwacji 5 i 8. To pierwsze skupienie. Powinien tu być wyznaczony środek ciężkości.

  27. Dla każdej zmiennej należy obliczyć średnią z t wartości dla dwóch obserwacji – i to jest środek ciężkości tego nowopowstałego skupienia.

  28. KROK 2. macierz odległości D z uwzględnieniem nowego skupienia

  29. Teraz jest już 8 skupień. Łączymy dalej (kontynuujemy procedurę aglomeracyjną).

  30. Ostatni etap procedury aglomeracyjnej ukazuje obserwację 9 jako obserwację odstająca (brak przynależności do jakiegokolwiek skupienia), pozostałe obserwacje są w jednym skupieniu. Macierz odległości D: Ostatnia odległość to 4,151 –między obserwacjami 1-8 i 10 oraz 9. To już koniec procedury – nareszcie wszystkie obiekty są w jednym skupieniu. Ale czy o to nam chodziło?

  31. Jak wybrać liczbę skupień? Dendrogram – ilustruje łączenia obserwacji na poszczególnych poziomach (etapach) procedury aglomeracyjnej. ‘Ucinamy” ramiona w miejscu, gdzie zaczynają być dłuższe – oznacz to, ze nie ma wiązań i skupienia składają się z różniących się od siebie obserwacji. Ale to zawsze jest NASZA decyzja…

  32. Skupienie 1: obserwacje 2, 4, 3, 10, 1, 7 Skupienie 2: obserwacje 5, 6, 8 Skupienie 3: obserwacja 9 Podobne? Pod jakim względem? Porównajmy średnie (group mean –średnia dla grupy; grand mean – średnia dla całości Grupa 1 (Skupienie 1: obserwacje 2, 4, 3, 10, 1, 7) Nic ciekawego ;-)

  33. Najgorsza - średnia grupy dla każdej zmiennej o wiele niższa niż średnia dla całości zbioru Najlepsza - średnia grupy dla każdej zmiennej o wiele wyższa niż średnia dla całości zbioru

  34. X1 X2 X3

  35. Metoda k-średnich Tworzymy k skupień. Ze wszystkich danych wybieramy k punktów (wybór dowolny). To są pierwsze środki ciężkości. Każdy punkt powinien być dołączony do jednego ze środków ciężkości (najbliższego). Po dołączeniu obserwacji, liczymy środki ciężkości. Krok 2 i 3 powtarzamy do momentu, aż obiekty przestana się ‘przemieszczać’ między skupieniami.

  36. A oraz E są losowo wybrane jako centra skupień. C ma bliżej do A niż do E, więc skupienie 2 zawiera A, B, C a skupienie 2 zawiera D oraz E (czerwone kropki oznaczają środki ciężkości skupień) . Teraz C ma bliżej środka ciężkości skupienia 2, będzie wiec przeniesione ze skupienia 1 do 2.

  37. Przykład: 10 uniwersytetów, opisanych przez 3 zmienne: X1 – liczba studentów (2005) X2 – liczba studentów studiów doktoranckich (2005) X3 – liczba profesorów (2005)

  38. Decydujemy się na 3 skupienia. Ze względu na różne jednostki zmiennych, najpierw przeprowadzamy standaryzację. Pierwsze trzy obiekty to centra skupień.

  39. Liczymy odległości obiektów od środka ciężkości. Przyłączamy obiekty do najbliższego im skupienia.

  40. Mamy takie skupienia:

  41. Dla każdego skupienia policzono środek ciężkości, a następnie odległość obiektów od środka ciężkości:

  42. Teraz jest inna konfiguracja obiektów:

  43. I znowu – liczymy odległości obiektów od środka ciężkości.

  44. Mamy następujące skupienia:

  45. I znowu – liczymy odległości obiektów od środka ciężkości.

  46. A teraz takie skupienia:

  47. I znowu – liczymy odległości obiektów od środka ciężkości. Te skupienia i poprzednie są takie same, konfiguracja obiektów już się więc nie zmieni. Nareszcie koniec 

More Related