1 / 22

Od ponad dwudziestu lat , to jest od czasu rozpoczęcia realizacji projektu WordNet

Od ponad dwudziestu lat , to jest od czasu rozpoczęcia realizacji projektu WordNet na Uniwersytecie Princeton , tzw. wordnety , czyli elektroniczne sieci relacji leksykalnych tworzone dla różnych języków, stanowią istotny element w dziedzinie opisu semantyki języka naturalnego.

Download Presentation

Od ponad dwudziestu lat , to jest od czasu rozpoczęcia realizacji projektu WordNet

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Od ponad dwudziestu lat, to jest od czasu rozpoczęcia realizacji projektu WordNet na Uniwersytecie Princeton, tzw. wordnety, czyli elektroniczne sieci relacji leksykalnychtworzone dla różnych języków, stanowią istotny element w dziedzinie opisu semantykijęzyka naturalnego.

  2. Od października 2005 roku powstaje Słowosieć– wordnet dlajęzyka polskiego. Pierwszą wersję konstruowano w latach 2005–2008 w ramach projektuMinisterstwa Nauki i Szkolnictwa Wyższego: Automatyczne metody konstrukcjisieci semantycznej leksemów polskich na potrzeby przetwarzania języka naturalnego. Jej kontynuacja w postaci wersji drugiej powstaje od 2009 roku w ramach projektuMNiSW: Konstrukcja zasobów leksykalnych przez rozpoznawanie relacji semantycznychna podstawie danych morfosyntaktycznych i semantycznych w korpusach tekstu.

  3. Autorzy Autorem i wykonawcą prac jest Grupa Technologii Językowych G4.19 Politechniki Wrocławskiej: Coordinator dr inż. Maciej Piasecki Academics Prof. Zbigniew Huzar Dr. Bogumiła Hnatkowska Dr. Jerzy Sas Ph.D. Students Bartosz Broda Adam Radziszewski Michał Marcińczuk Ireneusz Matysiak Paweł Mazur Tomasz Stępień MastersStudents Roman Kurc Marek Książek

  4. Słowosieć sieć semantycznych relacji leksykalnych dla języka polskiego, w której znaczenie jednostki leksykalnej jest opisywane poprzez umieszczenie tej jednostki w sieci powiązań wyrażających relacje znaczeniowe, w jakie wchodzi ona z innymi jednostkami.

  5. Słowosiećbywa określana jako: sieć semantycznych relacji leksykalnych 2) tezaurus – słownik pojęciowy 3) komputerowy słownik synonimów 4) baza leksykalna dla języka 5) struktura odzwierciedlająca taksonomię pojęciową 6) zwykły słownik (kolejne opracowanie leksykograficzne).

  6. Jak to działa? Owa sieć relacji leksykalno-semantycznych stanowi rodzaj tezaurusa elektronicznego. Słowosiećjest budowana półautomatycznie: manualną pracę lingwistów wspomagają narzędzia informatyczne, które na podstawie analizy dużych korpusów tekstów (m.in. Korpusu IPI PAN) proponują automatycznie wydobyte jednostki leksykalne wraz z relacjami semantycznymi, w jakie mogą one wchodzić w użyciach języka. Dzięki tej metodzie do Słowosieciweszły tylko te jednostki, które są faktycznie używane przez użytkowników języka polskiego i których użycie cechuje dosyć wysoka frekwencja.

  7. Struktura Słowosiecijest zbliżona do struktury WordNetu. Zachowano podział na klasy gramatyczne oraz kategorie semantyczne. Innowacją w stosunku do pierwowzoru, którego struktura jest odgórna, tzn. jego twórcy wyszli od najwyższych pięter w hierarchii, jest to, iż sieć relacji budujemy w Słowosiecioddolnie, tzn. począwszy od najniższych pięter hierarchicznych, np. cocer spaniel > pies myśliwski > pies > ssak.

  8. Podstawą struktury Słowosiecijest synset: reprezentacja relacji synonimii, czyli zbiór jednostek leksykalnych należących do tej samej części mowy i wchodzących w te same relacje semantyczne. Polisemiczne leksemy przynależą do więcej niż jednego synsetu. Relacje leksykalno-semantyczne w poszczególnych wordnetach różnią się ze względu na specyfikę danego języka. Większość relacji Słowosieci 1.0 zaczerpnięto z EuroWordNetu. W Słowosieci 2.0 rozszerzono ten zestaw relacji, biorąc pod uwagę rozbudowaną morfologię języka polskiego i mając na celu bardziej precyzyjne określanie znaczeń poszczególnych słów. W Słowosieciprzyjęto (za Johnem Lyonsem), iż synonimy to wyrazy, które łączy relacja hiponimii wzajemnej, co oznacza, że do synsetu nie wchodzą jednostki o różnych odcieniach znaczeniowych.

  9. Półautomatyczne rozszerzanie

  10. Zastosowanie Słowosieci: • forma źródła opisującego znaczenia słów w języku polskim na potrzeby automatycznej analizy znaczenia tekstu; • pomocna przy inteligentnym wyszukiwaniu dokumentów w Internecie w oparciu o analizę znaczenia pytania zadanego przez użytkownika; • pomocna przy automatycznej klasyfikacji dokumentów tekstowych na poszczególne dziedziny znaczeniowe czy też filtrowaniu dokumentów pod względem tematyki interesującej użytkownika; • z jej zasobów będą korzystać programy prowadzące dialog z użytkownikiem w języku naturalnym; • dostarcza lingwistom możliwości spojrzenia na system znaczeń leksykalnych języka polskiego z nowej perspektywy skali makro; • Słowosiećjest również innego rodzaju słownikiem języka polskiego publicznie dostępnym przez stronę WWW. Może być również przydatna w szeroko pojętej edukacji w tym w nauczaniu języka polskiego.

  11. Artykuły Magdalena Derwojedowa, Magdalena Zawisławska. Relacje semantyczne w Słowosieci. Biuletyn PTJ LXIII, 2007, str. 217-230. Magdalena Derwojedowa, Magdalena Zawisławska. Relacje leksykalne w polskiej i czeskiej bazie WordNet. Z polskich studiów slawistycznych, seria 11, Językoznawstwo, Prace na XIV Międzynarodowy Kongres Slawistów w Ochrydzie 2008, Warszawa 2007, str. 15-23. Maciej Piasecki, PolishTaggerTaKIPI: RuleBased Construction and Optimisation.TaskQuarterly, 2007, 11, 151-167. 4.Maciej Piasecki, Stanisław Szpakowicz, Bartosz Broda. A Wordnet from the GroundUp.

  12. http://plwordnet.pwr.wroc.pl/wordnet/

More Related