260 likes | 505 Views
Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu. Wykład z przedmiotu Inteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki. Plan prezentacji. Text Mining & NLP Głęboka i płytka analiza tekstu Model płytkiej analizy tekstu Możliwości dalszego wykorzystania.
E N D
Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu Wykład z przedmiotuInteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki
Plan prezentacji • Text Mining & NLP • Głęboka i płytka analiza tekstu • Model płytkiej analizy tekstu • Możliwości dalszego wykorzystania
Text Mining & NLP Text Mining / Text Data Mining / TDM • dziedzina zajmująca się przetwarzaniem zbiorów dokumentów w celu znalezienia informacji, która nie jest dostępna bezpośrednio lub też jest trudno dostępna. Jest to sposób znajdywania nowej wiedzy pośród olbrzymich zasobów tekstowych.
Text Mining & NLP NLP (ang. Natural Language Processing) • zbiór technik komputerowych służących do analizy i reprezentacji tekstów występujących na poziomie analizy lingwistycznej w celu uzyskania przypominającego ludzki sposobu przetwarzania języka w określonym zakresie zadań i zastosowań.
Zadania TDM • Klasyfikacja dokumentów (ang. Document classification) • Grupowanie dokumentów (ang. Document clustering) • Sumaryzacja (ang. Summarization) • Automatyczne rozpoznawanie języka (ang. Automatic Language Identification) • Grupowanie pojęć (ang. Concept clustering) • Wizualizacja i nawigacja • Web Mining • Wyszukiwanie informacji (ang. Information Retrieval, IR) • Ekstrakcja informacji (ang. Information Extraction, IE)
Wybrane techniki TDM • Reprezentacje tekstu • Prawo Zipfa • Algorytmy klasyfikacji • Rocchio • Algorymy klasteryzacji • Hierarchiczne • K-Means
Głęboka i płytka analiza tekstu • Głęboka analiza tekstu (ang. Deep Text Processing, DTP) jest procesem komputerowej analizy lingwistycznej wszystkich możliwych interpretacji i relacji gramatycznych występujących w tekście naturalnym. • bardzo złożona • uzyskiwana informacja może nie być konieczna
Głęboka i płytka analiza tekstu • Płytka analiza tekstu (ang. Shallow Text Processing, STP) może być krótko określona jako analiza tekstu, której efekt jest niepełny w stosunku do głębokiej analizy tekstu. • rozpoznawanie struktur nierekurencyjnych lub o ograniczonym poziomie rekurencji, które mogą być rozpoznane z dużym stopniem pewności. • struktury wymagające złożonej analizy wielu możliwych rozwiązań są pomijane lub analizowane częściowo • analiza skierowana jest głównie na rozpoznawanie nazw własnych, wyrażeń rzeczownikowych, grup czasownikowych bez rozpoznawania ich wewnętrznej struktury i funkcji w zdaniu.
Głęboka i płytka analiza tekstu • TEZA: Wykorzystywanie płytkiej analizy tekstu (zamiast głębokiej) może w wielu wypadkach okazać się wystarczająco do uzyskania potrzebnych informacji, a dzięki wprowadzeniu uproszczeń pozwala na uzyskanie oszczędności czasu. • Przeprowadzenie głębokiej analizy prowadzącej do pełnego rozpoznania semantyki jest wciąż niemożliwe. • Pomimo pewnych uproszczeń płytka analiza jest procesem złożonym, wymagającym rozwiązaniem wielu zagadnień lingwistycznych i stworzenia zestawu niezbędnych narzędzi.
Model płytkiej analizy tekstu • tokenizacja • wykrywanie końca zdania • analiza morfologiczna • usuwanie niejednoznaczności • zastępowanie zaimków • wykrywanie nazw własnych • rozkład zdań złożonych na zdania proste • rozbiór zdań (?) • …
Tokenizacja • Jednoznaczny podział tekstu na tokeny • Jednolity i otwarty standard opisu tokenów (XML) • Numeracja tokenów • Przeniesienia
Tokenizacja • Atrybut token.rodzajTokena (w nawiasie przykłady tokenów): • liczbaNaturalna („1234”, „433 322”) • liczbaRzeczywista („123,53”, „134.32”, „125 432,76” ) • liczbaProcent (23%) • liczbaSymbol (234PLN, 987EUR, 100cm, $100, USD255) • data (10/12/2004, 10-12-2004, 10.12.2004) • godzina (10:30, 10.30) • slowoDuze (ABC, CMS) • slowoMale (projekt, komin) • slowoPierwszaDuza (Politechnika) • slowoMieszane (PGNiG) • skrot (potencjalnie skrót: “mgr.”, „abc.”, „m.in.”, „cddfs.”, „S.A”) • email (abc@cdf.pl) • url (http://www.abc.pl, www.abc.pl, https://abc.pl) • CR – znak końca linii (do odtwarzania tekstu) • tab – znak tabulacji • ……
Wykrywanie końca zdania • Wykorzystanie znaków interpunkcyjnych • Wykorzystanie wielkości liter • Problemy: skróty, nazwy własne, cytaty, listy, dialogi… • Rozwiązania: reguły, słowniki skrótów • Zależność od dziedziny
Wykrywanie końca zdania • Atrybut zdanie.kontekst: • Zwykly – normalny tekst • Lista – element listy, wyliczenia itp. • Dialog – fragment dialogu • Cytat – element cytatu • Tabela – komórka tabeli • …
Format pliku <dokument> <historia> <zadanie nr=”1” nazwa=”tokenizacja” wersja=”Kowalski” czas=”45” data=”2004.12.15 16:44”> </historia> <zdanie id=”1” kontekst=”zwykly”> <token id=”1” slowo=”Ala” rodzajTokena=”slowoPierwszaDuza” /> <token id=”2” slowo=”ma” rodzajTokena=”slowo” /> <token id=”3” slowo=”kota” rodzajTokena=”slowo” /> <token id=”4” slowo=”.” rodzajTokena=”znak” /> </zdanie> </dokument>
Analiza morfologiczna • znajdywanie form podstawowych wyrazów (lematów), czyli tzw. stemming Zawodnik startuje w wyścigu. Zawodnicy startowali w wyścigach. • rozpoznawania i oznaczania części mowy i ich form • wykorzystanie słownika i reguł (ISPELL) • synteza • Problem: niejednoznaczność
Analiza morfologiczna <token id=”1” slowo=”Ala” rodzajTokena=”slowo” lemat=”Ala” czescMowy=”rzeczownik” przypadek=”mianownik” rodzaj=”zenski” liczebnosc=pojedynczy”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”meski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”zenski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”nijaki” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> …
Usuwanie niejednoznaczności • niejednoznaczność on robi ona robi ono robi • reguły kontekstowe (wiedza eksperta) • ukryte modele markowa (anotowane zbiory trenujące)
Zastępowanie zaimków • Zmniejszenie zależności od kontekstu • Przypisanie informacji do zaimków (stop-lista) • Kryteria • Zgodność rodzaju • Zgodność liczby • Zgodność kategorii znaczeniowej, np. zaimek osobowy (np. „on”) pasuje do wyrazu określającego osobę,
Rozpoznawanie nazw własnych • Rozpoznanie • Przypisanie kategorii • Organizacja, osoba, lokalizacja, czas (data, godzina), ilość (liczba, kwota pieniężna, procent) • Wykorzystanie słowników • Składnia (np. data) • Heurystyki (np. z dużej litery) • Problem: fleksja nazw własnych
Rozkład zdań złożonych na proste • Zdanie proste – aproksymacja faktu • Uproszczenie rozbioru zdań (mniej reguł) • Ułatwienie generacji streszczeń Ala ma kota i ona ma psa. Ala ma kota. Ala ma psa. • Rozkład nie zawsze możliwy (zachowanie sensu) Jadzia jest tym dla nas, czym matka jest dla dzieci. Był taki, jak jest zawsze.
Rozbiór zdań • rekurencyjny – trudne • statystyczno-adaptacyjny (HMM) • heurystyczny – znakowanie części zdania • Np. Reguła „Orzeczenie”. Ta reguła ma za zadanie znaleźć wszystkie orzeczenia słowne oraz łączniki orzeczeń imiennych. Reguła wyszukuje w pliku wszystkich form osobowych czasownika oznaczając je jako orzeczenie. Jeśli jest to forma osobowa czasownika „być”, „zostać”, „okazać się”, stać się”, zrobić się” to jest to łącznik w orzeczeniu imiennym. Reguła oprócz form osobowych czasownika wyszukuje wszystkie słowa „to”, które są łącznikami orzeczenia imiennego w równoważnikach zdania.
Rozbiór zdań c.d. przykładu • Reguła „Przydawka”. Rozpoznawanie przydawek odbywa się następujący sposób: • wszystkie nierozpoznane przymiotniki są przydawkami • wszystkie nierozpoznane liczebniki są przydawkami • wszystkie nierozpoznane zaimki dzierżawcze, wskazujące, przymiotnikowe i liczebnikowe są przydawkami • jeśli został znaleziony rzeczownik i nie został on rozpoznany wcześniej jako przydawka, to frazy stojące bezpośrednio za nim uznawane są za przydawki jeśli jest to rzeczownik lub wyrażenie przyimkowe lub czasownik w formie bezokolicznika.
Możliwości dalszego wykorzystania • Wykrywanie wątków tematycznych • Sumaryzacja • Klasyfikacja • Klasteryzacja
Dziękuję za uwagę psoldack@datacom.pl