450 likes | 589 Views
Metody reprezentacji wiedzy na tle Parsowania zdań języka naturalnego z wykorzystaniem CRB. Autor: Robert Papis. Wprowadzenie Parsowanie Opis morfosyntaktyczny Korpus IPI PAN CBR Sieci semantyczne UNL LangCerBeR Podsumowanie. Plan prezentacji. czasownik. rzeczownik. rzeczownik.
E N D
Metody reprezentacji wiedzy na tleParsowania zdań języka naturalnego z wykorzystaniem CRB. Autor: Robert Papis
Wprowadzenie • Parsowanie • Opis morfosyntaktyczny • Korpus IPI PAN • CBR • Sieci semantyczne • UNL • LangCerBeR • Podsumowanie Plan prezentacji
czasownik rzeczownik rzeczownik zobaczył orzeczenie podmiot zdanie Tomek rower Parsowanie klasycznie • <zdanie> -> <podmiot><orzeczenie> • <podmiot> -> <rzeczownik> • <podmiot> -> <zaimek osobowy> • <orzeczenie> -> <czasownik> • <orzeczenie> -> <czasownik><rzeczownik>
Słownictwo i fleksja Słowo: odbywający odbywać [CAAAA]: -ywający C-imiesłów przymiotnikowy: A-imiesłów przymiotnikowy czynny, A-liczba pojedyncza, A-rodzaj męski, A-mianownik CAAAA odbywać [CABAA]:-ywający C-imiesłów przymiotnikowy: A-imiesłów przymiotnikowy czynny, B-liczba mnoga, A-rodzaj męskoosobowy, A-mianownik CABAA
AABABA BABAAA GAAA ABAAAD BABAAA CO? KTO? ABAAAD AABABA JAKI? GAAA Parsowanie Ala ma rudego kota.
Opis morfosyntaktyczny Korpus IPI PAN Kategorie gramatyczne • 12 kategorii (liczba, przypadek, rodzaj…) (m1) Widzę jednego…….. z tych, których lubię. (m2) Widzę jednego…….. Z tych które lubię. (m3) Widzę jeden. Klasy gramatyczne/ fleksyjne • Odsłowniki (picie, palenie) • 32 klasy fleksyjne (ciała obce, interpunkcja)
Opis morfosyntaktyczny - przykład piękny [piękny:adj:sg:acc:m3:pos] piękny – forma podstawowa adj – klasa fleksyjna: przymiotnik (adjective) sg – liczba: pojedyncza (singular) acc – przypadek: biernik (accusative) m3 – rodzaj: męski rzeczowy (masculine) pos – stopień: równy (positive)
Korpus IPI PAN - przeszukiwanie • Zapytania o segmenty • Wyrażenie regularne „(pod|na|za)jecha.*” • Formy podstawowe [base=korpus] • Znaczniki morfosyntaktyczne [pos=subst&number=sg] • Wieloznaczność i dezambiguacja [case=acc & case=gen] • Metadane (author, title, created…)
Opis Korpusu IPI PAN vs Denise • Pokrycie całego słownika języka polskiego • Precyzyjne klasy gramatyczne • Precyzyjne klasy fleksyjne • Dezambiguator morfosyntaktyczny • Podział na segmenty zamiast słów • Dodatkowe narzędzia (XML) • Bogata literatura
Inne korpusy językowe • CQP - Corpus Query Processor • Czeski, Węgierski, Słowacki, Norweski… • Korpus PWN (wersja www oraz CD) • British National Corpus (100mln)
Wprowadzenie • Parsowanie • CBR • Dlaczego CBR • Jak działa • Sieci semantyczne • UNL • LangCerBeR • Podsumowanie Plan prezentacji
„Human experts are not systems of rules, they are libraries of experiences.” Riesbeck and Schank 1989 Korzenie „A case-based reasoner solves new problems by adapting solutions that were used to solve old problems.” Riesbeck & Schank, 1989 „Case-based reasoning is [...] reasoning by remembering.„ Leake, 1996
Przypadek X Przypadek 32 Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaVW Golf II, 1.6L199313,6VOK.OK Diagnoza :Zalecenia: Uszkodzony bezpiecznikWymienić bezpiecznik Przykład – opis przypadku Opis problemu... Cecha1: Cecha2:... Wartość1Wartość2.... Proponowane rozwiązanie...
Przypadek 1 Przypadek 2 Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaAudi A6199512,9Vzmiażdżone w wypadkuOK Diagnoza :Zalecenia: Uszkodzony bezpiecznikWymienić bezpiecznik Diagnoza :Zalecenia: Uszkodzona żarówkaWymienić przednie światła Przykład – baza przypadków • Każdy przypadek opisuje jedną sytuację • Przypadki są od siebie niezależne • Przypadki nie są regułami
Nowy problem Problem:Samochód:Rocznik:Akumulator:Stan świateł: Tylne światła nie działająAudi 80198912,6VOK Podobne ? Przypadek X Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Diagnoza :Zaleczenia: Przykład – wyszukanie podobnych • Porównaj nowy przypadek z każdym przypadkiem przechowywanym w bazie przypadków • Wybierz najbardziej podobny • Podobieństwo jest jedną z najważniejszych idei CBR
Nowy problem Przypadek 1 0,8 Problem:Samochód:Rocznik:Akumulator:Stan świateł: Tylne światła nie działająAudi 80198912,6VOK Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK 0,4 0,6 0,9 1,0 Diagnoza :Zaleczenia: Uszkodzony bezpiecznikWymienić bezpiecznik Przykład – porównanie z przypadkiem 1 Miara podobieństwa (uwzględniając wagi) sim(np, p1) = 1/20*[6*0,8+1*0,4+1*0,6+6*0,9+6*1,0]=0,86
Nowy problem Przypadek 2 0,8 Problem:Samochód:Rocznik:Akumulator:Stan świateł: Tylne światła nie działająAudi 80198912,6VOK Przednie światło nie działaAudi A6199512,9Vzmiażdżone w wypadkuOK 0,8 0,4 0,95 0 Diagnoza :Zaleczenia: Uszkodzona żarówkaWymienić przednie światła Przykład – porównanie z przypadkiem 2 Miara podobieństwa (uwzględniając wagi) sim(np, p2) = 1/20*[6*0,8+1*0,8+1*0,4+6*0,95+6*0]=0,585
Nowy problem Przypadek 1 Problem:Samochód:Rocznik:Akumulator:Stan świateł: Włącznik św.: Tylne światła nie działająAudi 80198912,6VOK Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK 0,86 Diagnoza :Zaleczenia: Przykład – wykorzystanie rozwiązania 1 Uszkodzony bezpiecznikWymienić bezpiecznik Uszkodzony bezpiecznikWymienić bezpiecznik Jeżeli diagnoza jest poprawna, zapamiętujemy nowy przypadek
Nowy problem Przypadek 1 Problem:Samochód:Rocznik:Akumulator:Stan świateł: Włącznik św.: Tylne światła nie działająAudi 80198912,6VOK Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Przednie światło nie działaVW Golf II, 1.6L199313,6VOKOK Przypadek 3 Diagnoza :Zaleczenia: Problem:Samochód:Rocznik:Akumulator:Stan świateł:Włącznik św.: Tylne światła nie działająAudi 80198912,6VOK Diagnoza :Zaleczenia: Uszkodzony bezpiecznikWymienić bezpiecznik Przykład – nowy przypadek Uszkodzony bezpiecznikWymienić bezpiecznik Uszkodzony bezpiecznikWymienić bezpiecznik
Retrieve Cykl CBR Retain Reuse Revise
Słownik (wykorzystywane cechy) • Miara podobieństwa • Transformacje rozwiązań • Baza przypadków Gdzie jest wiedza?
Podobne problemy mają podobne rozwiązania. Rozwiązanie problemu (reguła 4R :) Wyszukanie podobnych przypadków Wykorzystanie rozwiązań z precedensu (ów) Weryfikacja rozwiązania Włączenie rozwiązania do bazy CBR - Podsumowanie Łatwość implementacji i używania Akceptacja użytkowników końcowych
Wprowadzenie • Parsowanie • CBR • Sieci semantyczne • Podstawy biologiczne • Przykłady • UNL • LangCerBeR • Podsumowanie Plan prezentacji
Sieć semantyczna - przykład ma skórę zwierzę porusza się ma skrzela ssak ptak ryba umie pływać kanarek wróbel pstrąg łosoś Collins & Quillian, 1969
Zaplecze biologiczne 1500 Kanarek ma skórę Kanarek umie latać RT (msec) Kanarek umie śpiewać Kanarek jest zwierzakiem Kanarek jest ptakiem Właściwości Kategorie 900 Kanarek jest kanarkiem 0 1 2 odległość w sieci
Pomysły na sieć latające zwierzaki ptak kanarek sójka ryba wróbel rudzik rekin pływają zielony pingwin niebieski żółty czerwony Collins & Loftus, 1975 linux
Reprezentacja fobii Lang, 1979
Rodzaje sieci semantycznych • Definicyjne • Twierdzeń • Implikacyjne • Wykonywalne • Uczące się • Hybrydowe
Wprowadzenie • Parsowanie • CBR • Sieci semantyczne • UNL • Zdanie jako sieć • UNL jako metajęzyk • LangCerBeR • Podsumowanie Plan prezentacji
pisać AGT OBJ powieść Piotr AOJ MOD student ten kilka MOD TIM czas Zdanie jako sieć semantyczna Piotr, w tym czasie student, napisał kilka powieści.
Zdanie – formalny zapis UNL Piotr, w tym czasie student, napisał kilka powieści. aoj ( student, Piotr ) tim ( student, czas ) mod ( czas, ten ) agt ( pisać.@entry.@past, Taro ) obj (pisać.@entry.@past, powieść.@pl ) mod ( powieść.@pl, kilka )
Universal Language Networking UNL „It is a computer language that enables computer to process information and knowlage across the language bariers.” UNL Specification (2003) • Zapis jako sieć semantyczna • Pojęcia – węzły, relacje – połączenia • Jednoznaczność opisu
UNL - Relacje • Relacje wyłącznie binarne • Możliwość annotowania • Grupy podstawowe – AGT, AOJ, OBJ • Operatory AND, OR, @not • Zapis informacji semantcznych – TMF, TMT
UNL – Universal Word (UW) • Proste pojęcia (simple UW) • Restrykcje book(icl>thing) book(icl>do) • Rozszerzające (extra UW)tatami(icl>thing) • Złożone (compound UW) agt:01(wear(icl>do(obj>thing)), woman(icl>person).@pl)
DeConverter Arabski EnConverter EnConverter DeConverter Polski UNL jako metajęzyk UNL
Wprowadzenie • Parsowanie • CBR • Sieci semantyczne • UNL • LangCerBeR • Podsumowanie Plan prezentacji
Podobne ? Przypadek 11 Przypadek 12 Zdania jako przypadki CBR Ala ma rudego kota Wojtek puszcza latawca mieć ??? kot Ala rudy • Zdania proste vs zdania złożone • Częściowe podobieństwo
Przypadek 14 Przypadek 15 Ala ma ma kota Relacja jako przypadek mieć mieć Ala kot AOJ OBJ Przypadek 16 rudego kota rudy kot AOJ
Z1 P1 P2 Baza przypadków - schemat Z1 -Ten kwiat jest piękny. W1 - [ten:adj:sg:acc:m3:pos] W2 - [kwiat:subst:sg:acc:m3] W3- [być:fin:sg:ter:imperf] W4 - [piękny:adj:sg:acc:m3:pos] W1 W2 W3 P1 – mod (kwiat, ten) P2 - aoj(piękny.@entry, kwiat) W4
Miara podobieństwa • Reguły o tej samej długości • Podobieństwo cech rozważane binarnie • Podobieństwo słowa • Zgodność formy podstawowej • Zgodność klasy fleksyjnej • Zgodność 12 kategorii gramatycznych • Podobieństwo każdego słowa równoważne • Zgodność wystąpień w zdaniu (kolejność)
Wyszukiwanie i zapis przypadków • Poszukiwanie dla każdego wyrazu • najdłuższej relacji • do określonego progu • Wybór najlepszych relacji • Zapamiętanie relacji jako nowego przypadku • Grupowanie reguł, reguły bez kontekstowe
Podsumowanie • Korpus IPI PAN • Pełny system opisu języka polskiego • Baza języka polskiego z informacją morfosyntaktyczną • Poliqarp - narzędzie do przeszukiwania korpusu • CBR • Miara podobieństawa • Baza przypadków • Universal Networking Language • Jednolity system zapisu znaczeń • Uniwersalny sposób zapisu rozkładu zdania
Pytania… ??? ??? ??? ??? ??? ???