1 / 15

Wiktor Dernowicz Uniwersytet Jagielloński Kraków

Automatyczne pozyskiwanie relacji semantycznych z tekstu. Wiktor Dernowicz Uniwersytet Jagielloński Kraków. Motywacje. PJN to w dużej mierze przetwarzanie znaczeń Obecnie nie istnieje jeszcze słownik semantyczny języka polskiego, który by to umożliwiał

aurek
Download Presentation

Wiktor Dernowicz Uniwersytet Jagielloński Kraków

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Automatyczne pozyskiwanie relacji semantycznych z tekstu Wiktor Dernowicz Uniwersytet Jagielloński Kraków

  2. Motywacje • PJNto w dużej mierze przetwarzanie znaczeń • Obecnie nie istnieje jeszcze słownik semantyczny języka polskiego, który by to umożliwiał • Stąd duża potrzeba stworzenia takie słownika • Tworzenie takiego słownika jest czasochłonne i drogie • Częściowa automatyzacja tego procesu jest kluczowa

  3. Przedstawię próbę rozwiązanie tego problemu

  4. Czym jest słownik semantyczny Słownik semantyczny definiuje znaczenia poprzez relacje semantyczne takie jak: synonimity, similarity, is a kind of itd. Poniżej jest częściowy opis pojęcia pies: SYNONIMY: Canis familiaris SIMILAR TO: wilk IS A KIND OF: ssak CONSISTS OF: ogon, pazur, sierść

  5. Pytanie na które szukam odpowiedzi • Czy możliwe jest automatyczne pozyskiwanie relacji semantycznych z korpusu tekstów • Jeśli „tak”, jakiej jakości wyników powinienem oczekiwać • Czy może mieć to znaczący wkład w proces tworzenia słownika semantycznego

  6. Eksperyment • Zbudowałem pewien system, dałem mu do poczytania trochę książek oraz gazet i jeszcze pozwoliłem trochę poserfować po internecie • Następnie zadałem mu pytanie dotyczące relacji semantyczne część-całość: „Jakie są części ciała kota, pataka, słonia, krowy, jeża itd.?” • I zobaczyłem jaki był rezultat.

  7. Metoda podstawowa Wejście: • Informacja o świecie – korpus tekstów • Przykład czego ja szukam – cztery predefiniowane nazwy zwierząt: pies, koń, ryba i pająk oraz listy części ich części ciała. To jest podane jako wzór • Nazwy innych zwierząt, dla któych chcę, aby system znalazł nazwych ich części ciała – kot, ptak, słoń, krowa, jeż • Dwie wartości liczbowe (progi)

  8. Metoda podstawowa Wyjście:

  9. Jak ten system działa? • pies – okota para jest wzięta z wzorca danego na wejściu • Gdzie ten pies ma oczy?– znalezione zdanie • X ma Y – wyodrębniona fraza • pies – ogon • Pies powitał go machnięciem ogona. • X powitał go machnięciem Y

  10. Ocena fraz • Mój pies ma problem. • pies – problem takiej pary nie ma we wzorcu, stąd minus (-) • Taki koń ma skórę różowawą. • koń – skóra taka para faktycznie znajduje się we wzorcu, stąd plus (+) • Ta fraza otrzymała: • 30 plusów • 164 minusy • Czyli jest 15,4% plusów – a to jest więcej niż pierwszy próg (5%) • Jest 16 różnych plusów, 16 różnych par takich jak koń-skóra, a to jest więcej niż drugi próg (2 dwie różne poprawne pary) • Stąd fraza ta jest zaakceptowana

  11. Ocena fraz • X przywitał go machnięciem Y • Powyższa fraza otrzymała 1 plus i 0 minusów. • Jest 100% plusów, ale tylko 1 różny plus – a to jest poniżej drugiego progu (2), dlatego system „mówi”, że ta fraza nie jest dobra i pomija ją.

  12. Cześć zaakceptowanych fraz

  13. Uzyskane rezultaty

  14. Teraz i w przyszłości • Odnalazłem system WEKA z nowej Zelandii, który implementuje wiele algorytmów „Machine Learning”, jest on dostępny, darmowy i działa. Chciałbym zastosować część z tych algorytmów. • Chciałbym się dowiedzieć jakie są obecne osiągnięcia „Machine Learning” i być może zastosować dostępne rozwiązania. • Mam także swoje własne pomysły na to by usprawnić ten podstawowy algorytm.

  15. Dziękuję bardzo za państwa uwagę! Będę zobowiązany za wszelkie uwagi.

More Related