170 likes | 343 Views
VI EKSPLORACJA DANYCH. Zadania eksploracji danych: klasyfikacja. Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.
E N D
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metody klasyfikacji: Taksonomia fenetyczna: opiera się na relacji podobieństwa pomiędzy klasyfikowanymi obiektami Taksonomia filogenetyczna: opiera się na relacji pokrewieństwa klasyfikowanych obiektów Taksonomia: (gr. taxis = układ, porządek + nomos = prawo) nauka o zasadach i metodach klasyfikowania, w szczególności o tworzeniu i opisywaniu jednostek systematycznych - taksonów
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja W zadaniach klasyfikacji nowemu rekordowi przypisuje się kategorię najbardziej podobnego rekordu lub rekordów. Podobieństwo określone jest bliskością rekordów w wielowymiarowej przestrzeni. Do mierzenia podobieństwa konieczne są zdefiniowane miary odległości. • Miara odległości lub funkcja odległości jest rzeczywistoliczbową funkcją d, taką, że dla dowolnych współrzędnych x, y i z: • d(x,y) ≥ 0 i d(x,y) = 0 wtedy i tylko wtedy, gdy x = y • d(x,y) = d(y,x) • d(x,z) ≤ d(x,y) + d(y,z)
VI EKSPLORACJA DANYCH de(x,y) = √(y1 – x1)2 + (y2 – x2)2 + … + (yn – xn)2 Zadania eksploracji danych: klasyfikacja Metryka euklidesowa Naturalna, „zwykła” odległość punktów na prostej, płaszczyźnie, czy też dowolnej euklidesowej przestrzeni Rn w przypadku, gdy n = 1 de(x,y) = │y - x│ w przypadku ogólnym, gdy x, y Rn oraz x = ( x1, x2, …, xn) i y = ( y1, y2, …, yn)
II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja • normalizacja min - max X* = X - Xmin / Xmax - Xmin • standaryzacja X* = X - Xśr / (X)
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów • wybieramy nowy obiekt o wejściowym wektorze Y • analizujemy k najbliższych punktowi Y punktów ze zbioru danych treningowych (uczących) • przydzielamy ten obiekt do klasy, w której jest większość spośród tych k punktów
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Funkcja decyzyjna: Funkcja określająca metodę porównania wybranych rekordów (leżących najbliżej) do podjęcia decyzji klasyfikacyjnej dla nowego rekordu. Funkcją decyzyjną jest głosowanie. • głosowanie proste • głosowanie ważone
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie proste • określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu • porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość • określ liczby rekordów (należących dok)w poszczególnych klasach • przypisz nowy rekord do klasy dominującej
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja 0,4 0,5 0,4 0,1 0,3 0,2
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie ważone • określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu • porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość • oblicz wagi k rekordów w poszczególnych klasach • oblicz sumaryczne ważone głosy dla każdej klasy reprezentowanej przez k najbliższych sąsiadów • wybierz dla nowego rekordu klasę z dominującym głosem
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Wybór k – małe vs. duże Wybór k – małe: klasyfikacja jest pod wpływem przypadkowych pojedynczych danych (punktów). Dla małej wielkości k algorytm zwróci wartość zmiennej celu najbliższej obserwacji. Proces może prowadzić do przeuczenia – zapamiętania całego zbioru uczącego. Wybór k – duże: dla dużej wartości k pojawia się skłonność do „wygładzania” odpowiedzi. Lokalne ciekawe zachowania wydobyte ze zbioru uczącego zostają utracone.
VI EKSPLORACJA DANYCH Zalety metody najbliższego sąsiedztwa: • metoda łatwo daje się zaprogramować, • metoda nie wymaga żadnej optymalizacji ani uczenia, • metoda bez problemów daje sobie radę z brakującymi danymi (wartościami), • przy niektórych problemach jej dokładność klasyfikacyjna jest bardzo dobra i wypada lepiej niż inne metody.
VI EKSPLORACJA DANYCH Wady metody najbliższego sąsiedztwa: • metoda należy do tzw. metod leniwych, tzn. nie jest tutaj budowany model, lecz zapamiętywane są wszystkie punkty zbioru danych, • jeśli zbiór danych jest duży, to przeszukiwanie go w celu znalezienia k najbliższych sąsiadów jest procesem czasochłonnym, • metoda wymaga przechowywania całego zbioru danych, o objętości np, • ograniczenia czasowe lub objętościowe uniemożliwiają zastosowanie tej metody online,
VI EKSPLORACJA DANYCH Σiwiyi ynowy = Σiwi Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów Algorytm k – najbliższych sąsiadów może być również stosowany do szacowania i przewidywania. Uśrednianie lokalnie ważone – metoda szacuje zmienną celu jako średnią ważoną dla k najbliższych sąsiadów wg. wzoru: gdzie wi = 1/ odległość2