1 / 45

Metody reprezentacji wiedzy na tle Parsowania zdań języka naturalnego z wykorzystaniem CRB.

Metody reprezentacji wiedzy na tle Parsowania zdań języka naturalnego z wykorzystaniem CRB. Autor: Robert Papis. Wprowadzenie Parsowanie Opis morfosyntaktyczny Korpus IPI PAN CBR Sieci semantyczne UNL LangCerBeR Podsumowanie. Plan prezentacji. czasownik. rzeczownik. rzeczownik.

orde
Download Presentation

Metody reprezentacji wiedzy na tle Parsowania zdań języka naturalnego z wykorzystaniem CRB.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metody reprezentacji wiedzy na tleParsowania zdań języka naturalnego z wykorzystaniem CRB. Autor: Robert Papis

  2. Wprowadzenie • Parsowanie • Opis morfosyntaktyczny • Korpus IPI PAN • CBR • Sieci semantyczne • UNL • LangCerBeR • Podsumowanie Plan prezentacji

  3. czasownik rzeczownik rzeczownik zobaczył orzeczenie podmiot zdanie Tomek rower Parsowanie klasycznie • <zdanie> -> <podmiot><orzeczenie> • <podmiot> -> <rzeczownik> • <podmiot> -> <zaimek osobowy> • <orzeczenie> -> <czasownik> • <orzeczenie> -> <czasownik><rzeczownik>

  4. Słownictwo i fleksja Słowo: odbywający odbywać [CAAAA]: -ywający C-imiesłów przymiotnikowy: A-imiesłów przymiotnikowy czynny, A-liczba pojedyncza, A-rodzaj męski, A-mianownik CAAAA odbywać [CABAA]:-ywający C-imiesłów przymiotnikowy: A-imiesłów przymiotnikowy czynny, B-liczba mnoga, A-rodzaj męskoosobowy, A-mianownik CABAA

  5. AABABA BABAAA GAAA ABAAAD BABAAA CO? KTO? ABAAAD AABABA JAKI? GAAA Parsowanie Ala ma rudego kota.

  6. Opis morfosyntaktyczny Korpus IPI PAN Kategorie gramatyczne • 12 kategorii (liczba, przypadek, rodzaj…) (m1) Widzę jednego…….. z tych, których lubię. (m2) Widzę jednego…….. Z tych które lubię. (m3) Widzę jeden. Klasy gramatyczne/ fleksyjne • Odsłowniki (picie, palenie) • 32 klasy fleksyjne (ciała obce, interpunkcja)

  7. Opis morfosyntaktyczny - przykład piękny [piękny:adj:sg:acc:m3:pos] piękny – forma podstawowa adj – klasa fleksyjna: przymiotnik (adjective) sg – liczba: pojedyncza (singular) acc – przypadek: biernik (accusative) m3 – rodzaj: męski rzeczowy (masculine) pos – stopień: równy (positive)

  8. Korpus IPI PAN -Poliqarp

  9. Korpus IPI PAN - przeszukiwanie • Zapytania o segmenty • Wyrażenie regularne „(pod|na|za)jecha.*” • Formy podstawowe [base=korpus] • Znaczniki morfosyntaktyczne [pos=subst&number=sg] • Wieloznaczność i dezambiguacja [case=acc & case=gen] • Metadane (author, title, created…)

  10. Opis Korpusu IPI PAN vs Denise • Pokrycie całego słownika języka polskiego • Precyzyjne klasy gramatyczne • Precyzyjne klasy fleksyjne • Dezambiguator morfosyntaktyczny • Podział na segmenty zamiast słów • Dodatkowe narzędzia (XML) • Bogata literatura

  11. Inne korpusy językowe • CQP - Corpus Query Processor • Czeski, Węgierski, Słowacki, Norweski… • Korpus PWN (wersja www oraz CD) • British National Corpus (100mln)

  12. Wprowadzenie • Parsowanie • CBR • Dlaczego CBR • Jak działa • Sieci semantyczne • UNL • LangCerBeR • Podsumowanie Plan prezentacji

  13. „Human experts are not systems of rules, they are libraries of experiences.” Riesbeck and Schank 1989 Korzenie „A case-based reasoner solves new problems by adapting solutions that were used to solve old problems.” Riesbeck & Schank, 1989 „Case-based reasoning is [...] reasoning by remembering.„ Leake, 1996

  14. Przypadek X Przypadek 32 Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaVW Golf II, 1.6L199313,6VOK.OK Diagnoza :Zalecenia: Uszkodzony bezpiecznikWymienić bezpiecznik Przykład – opis przypadku Opis problemu... Cecha1: Cecha2:... Wartość1Wartość2.... Proponowane rozwiązanie...

  15. Przypadek 1 Przypadek 2 Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaAudi A6199512,9Vzmiażdżone w wypadkuOK Diagnoza :Zalecenia: Uszkodzony bezpiecznikWymienić bezpiecznik Diagnoza :Zalecenia: Uszkodzona żarówkaWymienić przednie światła Przykład – baza przypadków • Każdy przypadek opisuje jedną sytuację • Przypadki są od siebie niezależne • Przypadki nie są regułami

  16. Nowy problem Problem:Samochód:Rocznik:Akumulator:Stan świateł: Tylne światła nie działająAudi 80198912,6VOK Podobne ? Przypadek X Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Diagnoza :Zaleczenia: Przykład – wyszukanie podobnych • Porównaj nowy przypadek z każdym przypadkiem przechowywanym w bazie przypadków • Wybierz najbardziej podobny • Podobieństwo jest jedną z najważniejszych idei CBR

  17. Nowy problem Przypadek 1 0,8 Problem:Samochód:Rocznik:Akumulator:Stan świateł: Tylne światła nie działająAudi 80198912,6VOK Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK 0,4 0,6 0,9 1,0 Diagnoza :Zaleczenia: Uszkodzony bezpiecznikWymienić bezpiecznik Przykład – porównanie z przypadkiem 1 Miara podobieństwa (uwzględniając wagi) sim(np, p1) = 1/20*[6*0,8+1*0,4+1*0,6+6*0,9+6*1,0]=0,86

  18. Nowy problem Przypadek 2 0,8 Problem:Samochód:Rocznik:Akumulator:Stan świateł: Tylne światła nie działająAudi 80198912,6VOK Przednie światło nie działaAudi A6199512,9Vzmiażdżone w wypadkuOK 0,8 0,4 0,95 0 Diagnoza :Zaleczenia: Uszkodzona żarówkaWymienić przednie światła Przykład – porównanie z przypadkiem 2 Miara podobieństwa (uwzględniając wagi) sim(np, p2) = 1/20*[6*0,8+1*0,8+1*0,4+6*0,95+6*0]=0,585

  19. Nowy problem Przypadek 1 Problem:Samochód:Rocznik:Akumulator:Stan świateł: Włącznik św.: Tylne światła nie działająAudi 80198912,6VOK Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK 0,86 Diagnoza :Zaleczenia: Przykład – wykorzystanie rozwiązania 1 Uszkodzony bezpiecznikWymienić bezpiecznik Uszkodzony bezpiecznikWymienić bezpiecznik Jeżeli diagnoza jest poprawna, zapamiętujemy nowy przypadek

  20. Nowy problem Przypadek 1 Problem:Samochód:Rocznik:Akumulator:Stan świateł: Włącznik św.: Tylne światła nie działająAudi 80198912,6VOK Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK Przypadek 3 Diagnoza :Zaleczenia: Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Tylne światła nie działająAudi 80198912,6VOK Diagnoza :Zaleczenia: Uszkodzony bezpiecznikWymienić bezpiecznik Przykład – nowy przypadek Uszkodzony bezpiecznikWymienić bezpiecznik Uszkodzony bezpiecznikWymienić bezpiecznik

  21. Retrieve Cykl CBR Retain Reuse Revise

  22. Słownik (wykorzystywane cechy) • Miara podobieństwa • Transformacje rozwiązań • Baza przypadków Gdzie jest wiedza?

  23. Podobne problemy mają podobne rozwiązania. Rozwiązanie problemu (reguła 4R :) Wyszukanie podobnych przypadków Wykorzystanie rozwiązań z precedensu (ów) Weryfikacja rozwiązania Włączenie rozwiązania do bazy CBR - Podsumowanie Łatwość implementacji i używania Akceptacja użytkowników końcowych

  24. Wprowadzenie • Parsowanie • CBR • Sieci semantyczne • Podstawy biologiczne • Przykłady • UNL • LangCerBeR • Podsumowanie Plan prezentacji

  25. Sieć semantyczna - przykład ma skórę zwierzę porusza się ma skrzela ssak ptak ryba umie pływać kanarek wróbel pstrąg łosoś Collins & Quillian, 1969

  26. Zaplecze biologiczne 1500 Kanarek ma skórę Kanarek umie latać RT (msec) Kanarek umie śpiewać Kanarek jest zwierzakiem Kanarek jest ptakiem Właściwości Kategorie 900 Kanarek jest kanarkiem 0 1 2 odległość w sieci

  27. Pomysły na sieć latające zwierzaki ptak kanarek sójka ryba wróbel rudzik rekin pływają zielony pingwin niebieski żółty czerwony Collins & Loftus, 1975 linux

  28. Reprezentacja fobii Lang, 1979

  29. Rodzaje sieci semantycznych • Definicyjne • Twierdzeń • Implikacyjne • Wykonywalne • Uczące się • Hybrydowe

  30. Wprowadzenie • Parsowanie • CBR • Sieci semantyczne • UNL • Zdanie jako sieć • UNL jako metajęzyk • LangCerBeR • Podsumowanie Plan prezentacji

  31. pisać AGT OBJ powieść Piotr AOJ MOD student ten kilka MOD TIM czas Zdanie jako sieć semantyczna Piotr, w tym czasie student, napisał kilka powieści.

  32. Zdanie – formalny zapis UNL Piotr, w tym czasie student, napisał kilka powieści. aoj ( student, Piotr ) tim ( student, czas ) mod ( czas, ten ) agt ( pisać.@entry.@past, Taro ) obj (pisać.@entry.@past, powieść.@pl ) mod ( powieść.@pl, kilka )

  33. Universal Language Networking UNL „It is a computer language that enables computer to process information and knowlage across the language bariers.” UNL Specification (2003) • Zapis jako sieć semantyczna • Pojęcia – węzły, relacje – połączenia • Jednoznaczność opisu

  34. UNL - Relacje • Relacje wyłącznie binarne • Możliwość annotowania • Grupy podstawowe – AGT, AOJ, OBJ • Operatory AND, OR, @not • Zapis informacji semantcznych – TMF, TMT

  35. UNL – Universal Word (UW) • Proste pojęcia (simple UW) • Restrykcje book(icl>thing) book(icl>do) • Rozszerzające (extra UW)tatami(icl>thing) • Złożone (compound UW) agt:01(wear(icl>do(obj>thing)), woman(icl>person).@pl)

  36. DeConverter Arabski EnConverter EnConverter DeConverter Polski UNL jako metajęzyk UNL

  37. Wprowadzenie • Parsowanie • CBR • Sieci semantyczne • UNL • LangCerBeR • Podsumowanie Plan prezentacji

  38. Podobne ? Przypadek 11 Przypadek 12 Zdania jako przypadki CBR Ala ma rudego kota Wojtek puszcza latawca mieć ??? kot Ala rudy • Zdania proste vs zdania złożone • Częściowe podobieństwo

  39. Przypadek 14 Przypadek 15 Ala ma ma kota Relacja jako przypadek mieć mieć Ala kot AOJ OBJ Przypadek 16 rudego kota rudy kot AOJ

  40. Z1 P1 P2 Baza przypadków - schemat Z1 -Ten kwiat jest piękny. W1 - [ten:adj:sg:acc:m3:pos] W2 - [kwiat:subst:sg:acc:m3] W3- [być:fin:sg:ter:imperf] W4 - [piękny:adj:sg:acc:m3:pos] W1 W2 W3 P1 – mod (kwiat, ten) P2 - aoj(piękny.@entry, kwiat) W4

  41. Miara podobieństwa • Reguły o tej samej długości • Podobieństwo cech rozważane binarnie • Podobieństwo słowa • Zgodność formy podstawowej • Zgodność klasy fleksyjnej • Zgodność 12 kategorii gramatycznych • Podobieństwo każdego słowa równoważne • Zgodność wystąpień w zdaniu (kolejność)

  42. Wyszukiwanie i zapis przypadków • Poszukiwanie dla każdego wyrazu • najdłuższej relacji • do określonego progu • Wybór najlepszych relacji • Zapamiętanie relacji jako nowego przypadku • Grupowanie reguł, reguły bez kontekstowe

  43. Podsumowanie • Korpus IPI PAN • Pełny system opisu języka polskiego • Baza języka polskiego z informacją morfosyntaktyczną • Poliqarp - narzędzie do przeszukiwania korpusu • CBR • Miara podobieństawa • Baza przypadków • Universal Networking Language • Jednolity system zapisu znaczeń • Uniwersalny sposób zapisu rozkładu zdania

  44. Pytania… ??? ??? ??? ??? ??? ???

  45. Dziękuję za uwagę

More Related