280 likes | 478 Views
WEDT Klasyfikacja dokumentów. Wykład 8 Piotr Gawrysiak pgawrysiak@supermedia.pl. 2005. Grupowanie (clustering). Klasa B. Klasa A. Klasa C. Klasyfikacja (categorization). DB. DB – baza dokumentów. dr – dokumenty relewantne. ds. ds – dokumenty uznane przez system za relewantne.
E N D
WEDTKlasyfikacja dokumentów Wykład 8 Piotr Gawrysiak pgawrysiak@supermedia.pl 2005
Klasa B Klasa A Klasa C Klasyfikacja (categorization)
DB DB – baza dokumentów dr – dokumenty relewantne ds ds – dokumenty uznane przez system za relewantne dr Ocena efektywności algorytmów kategoryzacji kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR) PR – precision, R – recall, A – accuracy, FO – fallout
Kategoryzacja binarna • Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. • Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym. • Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. • Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.
Rozszerzenie dla wielu klas M={M1, M2,...,Ml} Mk Makro-uśrednianie Mikro-uśrednianie PR={PR1, PR2, ..., PRl}
Przykład oceny Wyniki działania czterech systemów kategoryzacji: Ocena systemów według przedstawionych wskaźników:
Zliczanie słów Zliczanie sekwencji słów Reprezentacje dokumentów w istocie są niemal tożsame z modelami języka • reprezentacje unigramowe (bag-of-words) • binarne • częstościowe • reprezentacja n-gramowe • reprezentacje mieszane (Katz backoff style) • reprezentacje pozycyjne Rozkłady prawdopodobieństwa wyst. słów
Reprezentacje unigramowe Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że: Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:
Reprezentacje bazujące na modelu Markowa • n-gramowe • mieszane „I would like to make phone...” Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V 3) elementy macierzy przyjmują wartości:
Budowanie reprezentacji n-gramowej Przykład – bigram dla tekstu: Twas brillig, and the slithy toves Did gyre and gimble in the wabe
2r f(k)=2 (przed norm.) k Wystąpienia słów Budowanie reprezentacji pozycyjnej Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach: 1) dziedziną funkcji fVi jest zbiór {1...n} 2) wartości funkcji fVi określone są następująco:
Przetwarzanie reprezentacji dokumentów • Powiększanie rozmiaru reprezentacji • Różne metody wygładzania • Ograniczanie rozmiaru reprezentacji • Funkcje istotności atrybutów • Wybór atrybutów • Przekształcanie przestrzeni atrybutów
Po co ograniczać rozmiar reprezentacji? Prawo Zipfa „Hapax legomena”
Attribute selection WUT DMG NOV 2001 B C B A A A C C B C A Statistical tests can be also applied to check if a feature – class correlation exists Class 1 and A – significant Class 2 and B – significant C – not important for class separation problem
Ograniczanie wielkości reprezentacji „Uniwersalne” funkcje istotności atrybutów Funkcje istotności atrybutów – rodzina TF/IDF term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie dj document frequency dfi – określa liczbę dokumentów w których występuje atrybut wi N – określa liczbę wszystkich dokumentów w systemie Atrybut w jednym dokumencie Atrybut we wszystkich dokumentach Funkcje istotności atrybutów - analiza funkcji gęstości Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.
Korelacja atrybut-klasa B C B A A A C C B C A Testy statystyczne mogą być zastosowane Klasa 1i A – istotny Klasa 2i B – istotny C – nieistotny dla separacji klas
Funkcje istotności atrybutów – Information Gain Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego
Przekształcanie przestrzeni atrybutów Grupowanie atrybutów Bezpośrednia analiza macierzy reprezentacji (SVD) Grupowanie semantyczne Grupowanie wg zależności atrybut-klasa Grupowanie wg podobieństwa funkcji gęstości Przekształcanie przestrzeni atrybutów
Tekst Elementy medialne (obraz, dźwięk itp.) Osadzone aplikacje Kroje pisma Hiperpołączenia z innymi dokumentami Układ stron i paginacja Kategoryzacja dokumentów o bogatej strukturze Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów XEROX Web Categorisation • topologia • metadane • podobieństwo tekstów (klasyczny model dokumentów) • częstość odwiedzin Przykład: Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67 Source Index - + + 0.53 Reference + - - - 0.64 Destination + - - - - 0.53 Head + + + + 0.70 Org. Home Page + + + + 0.30 Personal Home >1k&<3k - - 0.51 Content + - - 0.99
Binary unigram Bunga Unga 1 1 Multivariate unigram Bunga Unga 2 1 Klasyfikacja - przykład • Słownik bunga-unga • bunga • unga bunga unga Bunga bunga bunga Unga unga unga Bunga unga bunga
Unga 2 Bunga unga bunga 1 0 Bunga 2 0 1 Przestrzeń
Unga 0 Unga > 0 Unga Bunga 2 Bunga < 2 2 Bunga > 0 Bunga 0 1 Unga 1 Unga > 1 0 Bunga 2 0 1 Drzewo decycyjne - uczenie
Unga 0 Unga > 0 Bunga 2 Bunga < 2 Bunga > 0 Bunga 0 Unga 1 Unga > 1 Kategoryzacja nowego dokumentu Bunga unga bunga Bunga unga bunga
WUT DMG NOV 2001 Zastosowania • Klasyczne • Analiza wiadomości email (spam, routing etc.) • Event tracking • Internet related • Web Content Mining, Web Farming • Focused crawling, assisted browsingitd.