WEDT Klasyfikacja dokumentów

WEDTKlasyfikacja dokumentów Wykład 8 Piotr Gawrysiak pgawrysiak@supermedia.pl 2005

Grupowanie (clustering)

Klasa B Klasa A Klasa C Klasyfikacja (categorization)

DB DB – baza dokumentów dr – dokumenty relewantne ds ds – dokumenty uznane przez system za relewantne dr Ocena efektywności algorytmów kategoryzacji kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR) PR – precision, R – recall, A – accuracy, FO – fallout

Kategoryzacja binarna • Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. • Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym. • Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. • Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.

Rozszerzenie dla wielu klas M={M1, M2,...,Ml} Mk Makro-uśrednianie Mikro-uśrednianie PR={PR1, PR2, ..., PRl}

Przykład oceny Wyniki działania czterech systemów kategoryzacji: Ocena systemów według przedstawionych wskaźników:

Zliczanie słów Zliczanie sekwencji słów Reprezentacje dokumentów w istocie są niemal tożsame z modelami języka • reprezentacje unigramowe (bag-of-words) • binarne • częstościowe • reprezentacja n-gramowe • reprezentacje mieszane (Katz backoff style) • reprezentacje pozycyjne Rozkłady prawdopodobieństwa wyst. słów

Reprezentacje unigramowe Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że: Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:

Reprezentacje bazujące na modelu Markowa • n-gramowe • mieszane „I would like to make phone...” Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V 3) elementy macierzy przyjmują wartości:

Budowanie reprezentacji n-gramowej Przykład – bigram dla tekstu: Twas brillig, and the slithy toves Did gyre and gimble in the wabe

Reprezentacja pozycyjna

2r f(k)=2 (przed norm.) k Wystąpienia słów Budowanie reprezentacji pozycyjnej Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach: 1) dziedziną funkcji fVi jest zbiór {1...n} 2) wartości funkcji fVi określone są następująco:

Przykłady funkcji gęstości

Przetwarzanie reprezentacji dokumentów • Powiększanie rozmiaru reprezentacji • Różne metody wygładzania • Ograniczanie rozmiaru reprezentacji • Funkcje istotności atrybutów • Wybór atrybutów • Przekształcanie przestrzeni atrybutów

Po co ograniczać rozmiar reprezentacji? Prawo Zipfa „Hapax legomena”

Attribute selection WUT DMG NOV 2001 B C B A A A C C B C A Statistical tests can be also applied to check if a feature – class correlation exists Class 1 and A – significant Class 2 and B – significant C – not important for class separation problem

Ograniczanie wielkości reprezentacji „Uniwersalne” funkcje istotności atrybutów Funkcje istotności atrybutów – rodzina TF/IDF term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie dj document frequency dfi – określa liczbę dokumentów w których występuje atrybut wi N – określa liczbę wszystkich dokumentów w systemie Atrybut w jednym dokumencie Atrybut we wszystkich dokumentach Funkcje istotności atrybutów - analiza funkcji gęstości Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.

Korelacja atrybut-klasa B C B A A A C C B C A Testy statystyczne mogą być zastosowane Klasa 1i A – istotny Klasa 2i B – istotny C – nieistotny dla separacji klas

Funkcje istotności atrybutów – Information Gain Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego

Przekształcanie przestrzeni atrybutów Grupowanie atrybutów Bezpośrednia analiza macierzy reprezentacji (SVD) Grupowanie semantyczne Grupowanie wg zależności atrybut-klasa Grupowanie wg podobieństwa funkcji gęstości Przekształcanie przestrzeni atrybutów

Tekst Elementy medialne (obraz, dźwięk itp.) Osadzone aplikacje Kroje pisma Hiperpołączenia z innymi dokumentami Układ stron i paginacja Kategoryzacja dokumentów o bogatej strukturze Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów XEROX Web Categorisation • topologia • metadane • podobieństwo tekstów (klasyczny model dokumentów) • częstość odwiedzin Przykład: Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67 Source Index - + + 0.53 Reference + - - - 0.64 Destination + - - - - 0.53 Head + + + + 0.70 Org. Home Page + + + + 0.30 Personal Home >1k&<3k - - 0.51 Content + - - 0.99

Kategoryzacja oparta o formatowanie dokumentów

Binary unigram Bunga Unga 1 1 Multivariate unigram Bunga Unga 2 1 Klasyfikacja - przykład • Słownik bunga-unga • bunga • unga bunga unga Bunga bunga bunga Unga unga unga Bunga unga bunga

Unga 2 Bunga unga bunga 1 0 Bunga 2 0 1 Przestrzeń

Unga  0 Unga > 0 Unga Bunga  2 Bunga < 2 2 Bunga > 0 Bunga  0 1 Unga  1 Unga > 1 0 Bunga 2 0 1 Drzewo decycyjne - uczenie

Unga  0 Unga > 0 Bunga  2 Bunga < 2 Bunga > 0 Bunga  0 Unga  1 Unga > 1 Kategoryzacja nowego dokumentu Bunga unga bunga Bunga unga bunga

WUT DMG NOV 2001 Zastosowania • Klasyczne • Analiza wiadomości email (spam, routing etc.) • Event tracking • Internet related • Web Content Mining, Web Farming • Focused crawling, assisted browsingitd.

WEDT Klasyfikacja dokumentów

WEDT Klasyfikacja dokumentów

Presentation Transcript

Pozičný dokument Udržateľné využívanie biomasy na energetické účely Jún, 2007

Archiwizacja dokument w elektronicznych

Dokument elektroniczny w prawie polskim

Wykład nr 1 Klasyfikacja kosztów w przedsiębiorstwie

Klasyfikacja zjawisk afektywnych

Klasyfikacja stali i przykłady oznaczeń

Klasyfikacja kosztów do celów kontroli.

Astronomia pozagalaktyczna Wykład 2 Klasyfikacja (normalnych) galaktyk

Klasyfikacja produktów przemysłowych

KLASYFIKACJA TRÓJKĄTÓW ZE WZGLĘDU NA BOKI I KĄTY

TEI Header

Klasyfikacja roczna w roku szkolnym 2012/2013

5. POJAZDY TRAKCYJNE Klasyfikacja pojazdów

Existens og psyke

Pojęcie, klasyfikacja i struktura wydatków publicznych

Fil kendskab

Fil kendskab

KLASYFIKACJA i własności CZWOROKĄTÓW

Analiza numeryczna i symulacja systemów

Charakterystyka i klasyfikacja połączeń gwintowych. Budowa gwintu.

Remediering

Dokumentsystemet