130 likes | 274 Views
Inteligencja Obliczeniowa Inspiracje statystyczne: rozpoznawanie struktur. Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika. Odkrywanie wiedzy metodami neuronowymi Stosowanie reguł Drzewa decyzji. Co było. Kwantyzacja wektorowa Klasyfikatory statystyczne Liniowa dyskryminacja
E N D
Inteligencja ObliczeniowaInspiracje statystyczne: rozpoznawanie struktur. Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Odkrywanie wiedzy metodami neuronowymi Stosowanie reguł Drzewa decyzji Co było
Kwantyzacja wektorowa Klasyfikatory statystyczne Liniowa dyskryminacja Fisherowska dyskryminacja Logistyczna dyskryminacja Co będzie
Statystyczna teoria decyzji. Kwantyzacja wektorowa Statystyczne rozpoznawanie struktur: klasyfikacja próbek danych. Wektory X = X(t)Î Rn, t = 0,1,2... , należące do klas wi. Zadanie: zdefiniować optymalne powierzchnie decyzji w n-1 wymiarachtak, bypodzielić Rn na obszary odpowiadające różnym klasom. Uczenie: zmiana powierzchni decyzji w miarę napływania nowych informacji. Jedno z podejść: podzielić (skwantyzować) Rn na obszary wpływów, określając w tych obszarach odpowiednie gęstości prawd.
Jeśli każdej decyzji dotyczącej klasyfikacji przypiszemy tą samą wagę to średnią liczbę błędnych klasyfikacji można zminimalizować wyznaczając powierzchnie decyzji za pomocą: Statystyczne oceny gdzie wi, wjto sąsiadujące ze sobą klasy, P(wi) jest prawdopodobieństwem a priori pojawienia się klasy wi p(X|wi ) jest gęstością prawd. próbek X należących do klasy wi Metody parametryczne:specyficzna forma funkcji gęstości jest znana, jej parametry oceniane są na podstawie analizy próbek. Metody nieparametryczne:uniwersalne rozwinięcia. ,,Okna Parzena”: ustalonecentra, wokół których przyjmuje się symetryczneokienka prostopadłościenne lub sferyczne i zlicza w nich próbki.
VQ - w każdym obszarze Rnwyróżnia się ,,wektory kodujące”(codebook vectors)tak umieszczone, że reguła najbliższego sąsiada pozwala określić dla nowej próbki X do której należyklasy. Kwantyzacja wektorowa LVQ: wektory kodujące przemieszczają się w najbardziej optymalne z punktu widzenia dokładności klasyfikacji miejsca w miarę napływu nowych danych. Jak wybrać początkowe położenie wektorów kodujących? Jak optymalizować położenie wektorów kodujących? Najprostsza wersja: kNN (k-najbliższych sąsiadów), przyjmuje za wektory kodujące wektory otrzymane z próbek. Zbiór wektorów kodujących mk przybliżający rozkład p(X); najbliższy wektor kodujący mc dla X
Najprostsza reguła uczenia LVQ: LVQ Współczynnik uczenia h może zależeć od czasu. Inna reguła: LVQ2: stosuj powyższą regułę uczenia tylko jeśli: 1. X jest niewłaściwie klasyfikowany przez najbliższego sąsiada m1 ; 2. drugi najbliższy sąsiad m2 jest z tej samej klasy co X ; 3. X leży dostatecznie blisko granicy pomiędzy m1 i m2 Wówczas: przysuń m2 i odsuń m1. Zastosowania: klasyfikacja, klasteryzacja, kompresja danych, zastępując konkretne dane prototypami.
Dyskryminacja liniowa: znajdź najlepszą hiperpłaszczyznę dzielącą dane. LDA Zamień X na -X dla klas wi, i = 2..K Zbierz wszystkie Xi w prostokątnej macierzy A. Rozwiąż: Im większe współczynniki tym większy margines klasyfikatora. Wiele metod rozwiązywania w sensie LMS. Dla K klas rozdzielanie klas parami.
Dyskryminacja Fishera: znajdź najlepszą prostą, na którą można rzutować dane tak, by skupienia wewnątrz klasy były jak najmniejsze a separacja pomiędzy klasami jak największa. Macierz rozrzutu dla wektorów z tej samej klasy: FDA Pomiędzy klasami: Maksymalizowana funkcja Wynik:
Ulepszona dyskryminacja liniowa; modelowany jest stosunek: Dyskryminacja logistyczna LogDA P. posterioryczne modelowane są więc przez f. logistyczne: ale parametry znajdowane odmiennie niż w preceptronie: maks. metodami iteracyjnymi iloczyn:
Metody statystyczne nadają się do klasyfikacji i regresji. Podsumowanie LVQ jest stosowane w analizie sygnałów. FDA i LDA są tanie obliczeniowo i stosunkowo łatwe numerycznie; QDA ma już zbyt dużo parametrów i wymaga dodatkowych warunków; LogDA jest kosztowna ale daje dobre wyniki, używa LDA jako startu. GLM, ogólne modele liniowe, obejmują LogDA. Metody statystyczne działają dobrze dla rozkładów normalnych. Brak dobrych programów dla klasyfikatorów statystycznych. Niektóre modele można znaleźć w większych pakietach statystycznych. SVM rozszerza możliwości LDA i jest obecnie popularne. Dla klas niejednorodnych: kombinacja klasteryzacji i dyskryminacji.
Koniec wykładu 28 I to niestety tyle ! Kropla w morzu wiedzy ...