1 / 28

WEDT Klasyfikacja dokumentów

WEDT Klasyfikacja dokumentów. Wykład 8 Piotr Gawrysiak pgawrysiak@supermedia.pl. 2005. Grupowanie (clustering). Klasa B. Klasa A. Klasa C. Klasyfikacja (categorization). DB. DB – baza dokumentów. dr – dokumenty relewantne. ds. ds – dokumenty uznane przez system za relewantne.

vaughan
Download Presentation

WEDT Klasyfikacja dokumentów

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WEDTKlasyfikacja dokumentów Wykład 8 Piotr Gawrysiak pgawrysiak@supermedia.pl 2005

  2. Grupowanie (clustering)

  3. Klasa B Klasa A Klasa C Klasyfikacja (categorization)

  4. DB DB – baza dokumentów dr – dokumenty relewantne ds ds – dokumenty uznane przez system za relewantne dr Ocena efektywności algorytmów kategoryzacji kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR) PR – precision, R – recall, A – accuracy, FO – fallout

  5. Kategoryzacja binarna • Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. • Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym. • Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. • Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.

  6. Rozszerzenie dla wielu klas M={M1, M2,...,Ml} Mk Makro-uśrednianie Mikro-uśrednianie PR={PR1, PR2, ..., PRl}

  7. Przykład oceny Wyniki działania czterech systemów kategoryzacji: Ocena systemów według przedstawionych wskaźników:

  8. Zliczanie słów Zliczanie sekwencji słów Reprezentacje dokumentów w istocie są niemal tożsame z modelami języka • reprezentacje unigramowe (bag-of-words) • binarne • częstościowe • reprezentacja n-gramowe • reprezentacje mieszane (Katz backoff style) • reprezentacje pozycyjne Rozkłady prawdopodobieństwa wyst. słów

  9. Reprezentacje unigramowe Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że: Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:

  10. Reprezentacje bazujące na modelu Markowa • n-gramowe • mieszane „I would like to make phone...” Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V 3) elementy macierzy przyjmują wartości:

  11. Budowanie reprezentacji n-gramowej Przykład – bigram dla tekstu: Twas brillig, and the slithy toves Did gyre and gimble in the wabe

  12. Reprezentacja pozycyjna

  13. 2r f(k)=2 (przed norm.) k Wystąpienia słów Budowanie reprezentacji pozycyjnej Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach: 1) dziedziną funkcji fVi jest zbiór {1...n} 2) wartości funkcji fVi określone są następująco:

  14. Przykłady funkcji gęstości

  15. Przetwarzanie reprezentacji dokumentów • Powiększanie rozmiaru reprezentacji • Różne metody wygładzania • Ograniczanie rozmiaru reprezentacji • Funkcje istotności atrybutów • Wybór atrybutów • Przekształcanie przestrzeni atrybutów

  16. Po co ograniczać rozmiar reprezentacji? Prawo Zipfa „Hapax legomena”

  17. Attribute selection WUT DMG NOV 2001 B C B A A A C C B C A Statistical tests can be also applied to check if a feature – class correlation exists Class 1 and A – significant Class 2 and B – significant C – not important for class separation problem

  18. Ograniczanie wielkości reprezentacji „Uniwersalne” funkcje istotności atrybutów Funkcje istotności atrybutów – rodzina TF/IDF term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie dj document frequency dfi – określa liczbę dokumentów w których występuje atrybut wi N – określa liczbę wszystkich dokumentów w systemie Atrybut w jednym dokumencie Atrybut we wszystkich dokumentach Funkcje istotności atrybutów - analiza funkcji gęstości Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.

  19. Korelacja atrybut-klasa B C B A A A C C B C A Testy statystyczne mogą być zastosowane Klasa 1i A – istotny Klasa 2i B – istotny C – nieistotny dla separacji klas

  20. Funkcje istotności atrybutów – Information Gain Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego

  21. Przekształcanie przestrzeni atrybutów Grupowanie atrybutów Bezpośrednia analiza macierzy reprezentacji (SVD) Grupowanie semantyczne Grupowanie wg zależności atrybut-klasa Grupowanie wg podobieństwa funkcji gęstości Przekształcanie przestrzeni atrybutów

  22. Tekst Elementy medialne (obraz, dźwięk itp.) Osadzone aplikacje Kroje pisma Hiperpołączenia z innymi dokumentami Układ stron i paginacja Kategoryzacja dokumentów o bogatej strukturze Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów XEROX Web Categorisation • topologia • metadane • podobieństwo tekstów (klasyczny model dokumentów) • częstość odwiedzin Przykład: Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67 Source Index - + + 0.53 Reference + - - - 0.64 Destination + - - - - 0.53 Head + + + + 0.70 Org. Home Page + + + + 0.30 Personal Home >1k&<3k - - 0.51 Content + - - 0.99

  23. Kategoryzacja oparta o formatowanie dokumentów

  24. Binary unigram Bunga Unga 1 1 Multivariate unigram Bunga Unga 2 1 Klasyfikacja - przykład • Słownik bunga-unga • bunga • unga bunga unga Bunga bunga bunga Unga unga unga Bunga unga bunga

  25. Unga 2 Bunga unga bunga 1 0 Bunga 2 0 1 Przestrzeń

  26. Unga  0 Unga > 0 Unga Bunga  2 Bunga < 2 2 Bunga > 0 Bunga  0 1 Unga  1 Unga > 1 0 Bunga 2 0 1 Drzewo decycyjne - uczenie

  27. Unga  0 Unga > 0 Bunga  2 Bunga < 2 Bunga > 0 Bunga  0 Unga  1 Unga > 1 Kategoryzacja nowego dokumentu Bunga unga bunga Bunga unga bunga

  28. WUT DMG NOV 2001 Zastosowania • Klasyczne • Analiza wiadomości email (spam, routing etc.) • Event tracking • Internet related • Web Content Mining, Web Farming • Focused crawling, assisted browsingitd.

More Related