1 / 17

VI EKSPLORACJA DANYCH

VI EKSPLORACJA DANYCH. Zadania eksploracji danych: klasyfikacja. Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.

keren
Download Presentation

VI EKSPLORACJA DANYCH

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.

  2. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metody klasyfikacji: Taksonomia fenetyczna: opiera się na relacji podobieństwa pomiędzy klasyfikowanymi obiektami Taksonomia filogenetyczna: opiera się na relacji pokrewieństwa klasyfikowanych obiektów Taksonomia: (gr. taxis = układ, porządek + nomos = prawo) nauka o zasadach i metodach klasyfikowania, w szczególności o tworzeniu i opisywaniu jednostek systematycznych - taksonów

  3. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja W zadaniach klasyfikacji nowemu rekordowi przypisuje się kategorię najbardziej podobnego rekordu lub rekordów. Podobieństwo określone jest bliskością rekordów w wielowymiarowej przestrzeni. Do mierzenia podobieństwa konieczne są zdefiniowane miary odległości. • Miara odległości lub funkcja odległości jest rzeczywistoliczbową funkcją d, taką, że dla dowolnych współrzędnych x, y i z: • d(x,y) ≥ 0 i d(x,y) = 0 wtedy i tylko wtedy, gdy x = y • d(x,y) = d(y,x) • d(x,z) ≤ d(x,y) + d(y,z)

  4. VI EKSPLORACJA DANYCH de(x,y) = √(y1 – x1)2 + (y2 – x2)2 + … + (yn – xn)2 Zadania eksploracji danych: klasyfikacja Metryka euklidesowa Naturalna, „zwykła” odległość punktów na prostej, płaszczyźnie, czy też dowolnej euklidesowej przestrzeni Rn w przypadku, gdy n = 1 de(x,y) = │y - x│ w przypadku ogólnym, gdy x, y Rn oraz x = ( x1, x2, …, xn) i y = ( y1, y2, …, yn)

  5. II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych

  6. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja • normalizacja min - max X* = X - Xmin / Xmax - Xmin • standaryzacja X* = X - Xśr / (X)

  7. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

  8. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów • wybieramy nowy obiekt o wejściowym wektorze Y • analizujemy k najbliższych punktowi Y punktów ze zbioru danych treningowych (uczących) • przydzielamy ten obiekt do klasy, w której jest większość spośród tych k punktów

  9. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Funkcja decyzyjna: Funkcja określająca metodę porównania wybranych rekordów (leżących najbliżej) do podjęcia decyzji klasyfikacyjnej dla nowego rekordu. Funkcją decyzyjną jest głosowanie. • głosowanie proste • głosowanie ważone

  10. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

  11. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie proste • określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu • porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość • określ liczby rekordów (należących dok)w poszczególnych klasach • przypisz nowy rekord do klasy dominującej

  12. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja 0,4 0,5 0,4 0,1 0,3 0,2

  13. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie ważone • określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu • porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość • oblicz wagi k rekordów w poszczególnych klasach • oblicz sumaryczne ważone głosy dla każdej klasy reprezentowanej przez k najbliższych sąsiadów • wybierz dla nowego rekordu klasę z dominującym głosem

  14. VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Wybór k – małe vs. duże Wybór k – małe: klasyfikacja jest pod wpływem przypadkowych pojedynczych danych (punktów). Dla małej wielkości k algorytm zwróci wartość zmiennej celu najbliższej obserwacji. Proces może prowadzić do przeuczenia – zapamiętania całego zbioru uczącego. Wybór k – duże: dla dużej wartości k pojawia się skłonność do „wygładzania” odpowiedzi. Lokalne ciekawe zachowania wydobyte ze zbioru uczącego zostają utracone.

  15. VI EKSPLORACJA DANYCH Zalety metody najbliższego sąsiedztwa: • metoda łatwo daje się zaprogramować, • metoda nie wymaga żadnej optymalizacji ani uczenia, • metoda bez problemów daje sobie radę z brakującymi danymi (wartościami), • przy niektórych problemach jej dokładność klasyfikacyjna jest bardzo dobra i wypada lepiej niż inne metody.

  16. VI EKSPLORACJA DANYCH Wady metody najbliższego sąsiedztwa: • metoda należy do tzw. metod leniwych, tzn. nie jest tutaj budowany model, lecz zapamiętywane są wszystkie punkty zbioru danych, • jeśli zbiór danych jest duży, to przeszukiwanie go w celu znalezienia k najbliższych sąsiadów jest procesem czasochłonnym, • metoda wymaga przechowywania całego zbioru danych, o objętości np, • ograniczenia czasowe lub objętościowe uniemożliwiają zastosowanie tej metody online,

  17. VI EKSPLORACJA DANYCH Σiwiyi ynowy = Σiwi Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów Algorytm k – najbliższych sąsiadów może być również stosowany do szacowania i przewidywania. Uśrednianie lokalnie ważone – metoda szacuje zmienną celu jako średnią ważoną dla k najbliższych sąsiadów wg. wzoru: gdzie wi = 1/ odległość2

More Related