150 likes | 324 Views
Automatyczne pozyskiwanie relacji semantycznych z tekstu. Wiktor Dernowicz Uniwersytet Jagielloński Kraków. Motywacje. PJN to w dużej mierze przetwarzanie znaczeń Obecnie nie istnieje jeszcze słownik semantyczny języka polskiego, który by to umożliwiał
E N D
Automatyczne pozyskiwanie relacji semantycznych z tekstu Wiktor Dernowicz Uniwersytet Jagielloński Kraków
Motywacje • PJNto w dużej mierze przetwarzanie znaczeń • Obecnie nie istnieje jeszcze słownik semantyczny języka polskiego, który by to umożliwiał • Stąd duża potrzeba stworzenia takie słownika • Tworzenie takiego słownika jest czasochłonne i drogie • Częściowa automatyzacja tego procesu jest kluczowa
Czym jest słownik semantyczny Słownik semantyczny definiuje znaczenia poprzez relacje semantyczne takie jak: synonimity, similarity, is a kind of itd. Poniżej jest częściowy opis pojęcia pies: SYNONIMY: Canis familiaris SIMILAR TO: wilk IS A KIND OF: ssak CONSISTS OF: ogon, pazur, sierść
Pytanie na które szukam odpowiedzi • Czy możliwe jest automatyczne pozyskiwanie relacji semantycznych z korpusu tekstów • Jeśli „tak”, jakiej jakości wyników powinienem oczekiwać • Czy może mieć to znaczący wkład w proces tworzenia słownika semantycznego
Eksperyment • Zbudowałem pewien system, dałem mu do poczytania trochę książek oraz gazet i jeszcze pozwoliłem trochę poserfować po internecie • Następnie zadałem mu pytanie dotyczące relacji semantyczne część-całość: „Jakie są części ciała kota, pataka, słonia, krowy, jeża itd.?” • I zobaczyłem jaki był rezultat.
Metoda podstawowa Wejście: • Informacja o świecie – korpus tekstów • Przykład czego ja szukam – cztery predefiniowane nazwy zwierząt: pies, koń, ryba i pająk oraz listy części ich części ciała. To jest podane jako wzór • Nazwy innych zwierząt, dla któych chcę, aby system znalazł nazwych ich części ciała – kot, ptak, słoń, krowa, jeż • Dwie wartości liczbowe (progi)
Metoda podstawowa Wyjście:
Jak ten system działa? • pies – okota para jest wzięta z wzorca danego na wejściu • Gdzie ten pies ma oczy?– znalezione zdanie • X ma Y – wyodrębniona fraza • pies – ogon • Pies powitał go machnięciem ogona. • X powitał go machnięciem Y
Ocena fraz • Mój pies ma problem. • pies – problem takiej pary nie ma we wzorcu, stąd minus (-) • Taki koń ma skórę różowawą. • koń – skóra taka para faktycznie znajduje się we wzorcu, stąd plus (+) • Ta fraza otrzymała: • 30 plusów • 164 minusy • Czyli jest 15,4% plusów – a to jest więcej niż pierwszy próg (5%) • Jest 16 różnych plusów, 16 różnych par takich jak koń-skóra, a to jest więcej niż drugi próg (2 dwie różne poprawne pary) • Stąd fraza ta jest zaakceptowana
Ocena fraz • X przywitał go machnięciem Y • Powyższa fraza otrzymała 1 plus i 0 minusów. • Jest 100% plusów, ale tylko 1 różny plus – a to jest poniżej drugiego progu (2), dlatego system „mówi”, że ta fraza nie jest dobra i pomija ją.
Teraz i w przyszłości • Odnalazłem system WEKA z nowej Zelandii, który implementuje wiele algorytmów „Machine Learning”, jest on dostępny, darmowy i działa. Chciałbym zastosować część z tych algorytmów. • Chciałbym się dowiedzieć jakie są obecne osiągnięcia „Machine Learning” i być może zastosować dostępne rozwiązania. • Mam także swoje własne pomysły na to by usprawnić ten podstawowy algorytm.
Dziękuję bardzo za państwa uwagę! Będę zobowiązany za wszelkie uwagi.