540 likes | 710 Views
W2: Gramatyki. Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006. Plan. W1: Lingwistyka W2: Gramatyki W3: Gramatyki, Statystyka W4: Zastosowania. wypowiedź. reakcja (wykonanie operacji, sformułowanie odpowiedzi). reprezentacja semantyczna (np. logiczna).
E N D
W2: Gramatyki Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006
Plan • W1: Lingwistyka • W2: Gramatyki • W3: Gramatyki, Statystyka • W4: Zastosowania 2 z 52
wypowiedź reakcja (wykonanie operacji, sformułowanie odpowiedzi) reprezentacja semantyczna(np. logiczna) tekst w języku naturalnym syntezamowy Ciąg przekształceń NLP 3 z 52
Aspekty informatyczne • Modele formalne • Modele dedukcyjne • Algorytmy genetyczne • Algorytmy miękkich obliczeń • Algorytmy statystyczne • Złożone struktury danych i algorytmy ich przetwarzania • Bazy danych i bazy wiedzy • Ontologie 4 z 52
Wiedza o języku a realizacja wyznaczonego celu • Zrozumienie polecenia • analiza językowa (identyfikacja słów, ich form, związków między nimi) • odniesienie do rzeczywistości Wybór odpowiedzi ew. odrzucenie polecenia mimo możliwości wykonania go • Sformułowanie odpowiedzi • wybór słów, ich form, porządku • pragmatyka: uprzejma odmowa, podziękowanie • odniesienie do poprzedniej części dialogu (np. ten, to, on) 5 z 52
Wiedza o języku naturalnym • Fonologia: dźwięki należące do języka • Fonetyka: dźwięki • Morfologia: struktura/formy wyrazów • fleksja • słowotwórstwo • Leksyka: opisuje słowa, zbiory słów • Leksykografia – zasady zapisu, struktura słowa • Leksykologia – zewnętrzne znaczenie słowa • Ortografia: zasady pisowni • Składnia: zależności strukturalne między słowami (budowa fraz) • Semantyka: znaczenie • Pragmatyka: relacja do świata, zastosowania • Zależności międzyzdaniowe (discourse) 6 z 52
Problemy niejednoznaczność • Wiele zadań NLP można scharakteryzować jako rozstrzyganie wieloznaczności, np: • kategoria składniowa • Jan pali. (czasownik)Jan nie zobaczył pali. (rzeczownik) • znaczenie (i kategoria składniowa) • Piła! – okrzyk radości ma widok zgubionej piły, • niezbyt pochlebna ocena nauczyciela, • wyraz zdegustowania nadużyciem alkoholu • Uszył jej buty. • „nawiasowanie” negacji • Nie zrobisz tego? Nie(nie zrobię albo właśnie, że zrobię) • wiązane zaimków • Jan kazał Piotrowi wyczyścić swoje buty. Źrórło przykładów: wykład A. Mykowieckiej, IPI PAN 7 z 52
Niejednoznaczności - dwie drogi • Przetwarzanie informacji poszczególnych rodzajów: • ściśle powiązane: • informacje przekazywane między poziomami, wybierane najskuteczniejsze kryteria ujednoznacznienia • słabo powiązane: • opieranie decyzji na wiedzy jednego typu (ew. kilku wybranych) bez odwoływania się do innego rodzaju informacji (założenie, że i tak niewiele pomogą) 8 z 52
Gramatyki formalne, metody statystyczne • klasyczne opisy teoretyczne poszczególnych poziomów języka, przekształcanie na zapis formalny ( np. rozbiór syntaktyczny zgodny z jakąś teorią, formuła logiczna) • zalety: metody pewne, ścisłe, • wada: pokrywają niewielki podzbiór wypowiedzi w języku naturalnym • metody statystyczne – wnioskowanie o zależnościach występujących w języku naturalnym na podstawie dużych zbiorów danych • metody przybliżone, ale praktycznie użyteczne • metody statystyczne wspomagane ustaleniami uzyskanymi drogą teoretyczną • metody formalne wspomagane metodami statystycznymi 9 z 52
Formalny opis języka • Alfabet - dowolny zbiór symboli (V). • Słowo - skończony (także pusty-) ciąg symboli należących do alfabetu • Słownik - zbiór wszystkich słów nad alfabetem V, (V*). • Język L to dowolny podzbiór zbioru słów V* nad alfabetem V. • Gramatyka <V,T,S,P > • V- alfabet, • T- podzbiór V, symbole terminalne, • S - element V-T, • P - zbiór produkcji • Język to zbiór słów generowanych przez gramatykę 10 z 52
Hierarchia gramatyk/języków (Chomsky, 1959) • regularna (regular) • X α Y gdzie X,Y są symbolami nieterminalnym, α ciągiem terminali; Y może być pominięte • bezkontekstowa (Context-free) • X γ, X -symbol nieterminalny, γ ciąg dowolnych symboli • kontekstowa (Context-sensitive) • αXβαγβ, X - symbol nieterminany, α, β, γ ciągi symboli terminalych i nieterminalnych, γ nie może być pusty • rekurencyjnie przeliczalna (Turing Equivalent, Type0) • αβ; α, β ciągi symboli terminalych i nieterminalnych 11 z 52
Do jakiej klasy należą języki naturalne? • Długa dyskusja o tym, do której kategorii należą poszczególne języki naturalne • Wiele „dowodów” na to, że angielski jest językiem kontekstowym • Obecny stan wiedzy: • składnia i morfologia angielskiego jest bezkontekstowa • szwajcarski dialekt niemieckiego ma składnię kontekstową • morfologia języka Bambara (Mali) kontekstowa 12 z 52
Gramatyki formalne c.d. • Teoria gramatyk – lata 50-te, dyscyplina matematyczna • Konstruowanie i badanie gramatyk formalnych • Gramatyki formalne – pewne abstrakcje, które występują jako modele konkretnych systemów reguł gramatycznych • Powiązanie z teorią algorytmów i teorią automatów • Pojęcia i metody zinterpretowane w sposób specyficzny, rozwijane w innych, nowych kierunkach • Wygodny metajęzyk • Bardzo rozległa dziedzina 13 z 52
Gramatyki formalne c.d. • Wykorzystanie do opisu różnych poziomów JN • Fonologiczny • Jak buduje się morfy z fonem • Morfologiczny • Jaka jest struktura wyrazów (w jaki sposób morfy składają się na leksemy) • Syntaktyczny • Jaka jest struktura zdania (jak wyrazy składają się na zdanie) • Semantyczny • Jak znaczenia słów składają się na znaczenie zdania • Jak struktura semantyczna zdania określa treść 14 z 52
Gramatyki formalne c.d. • Uogólniając: gramatyka jest algorytmem, który pozwala „określić” język (1) Jest możliwość wybrać taki reżym pracy algorytmu, który dla każdego ciągu danego języka pozwala otrzymać (generować) ten ciąg, przy tym żaden ciąg nienależący do języka nie będzie generowany (2) Istnieje możliwość „przeliczenia” języka (generowanie ciągów po kolei tak długo, że będzie w stanie wygenerować dowolny ciąg) (3) Istnieje możliwość otrzymania odpowiedzi na pytanie o przynależności dowolnego ciągu z odpowiedniego słownika do danego języka • Zwykle korzystają z podejścia (1) – modeluje sytuację – jak skonstruować zdanie zawierające pewną treść • Model generuje nie zdania z zadanym sensem, a wszystkie możliwe „prawidłowe” zdania, pojęcie sensu tu nie istnieje, ale • Pozwala zrozumieć, jak sens przekształca się w tekst (tym samym tekst – w sens) 15 z 52
Słowa (pisownia, wymowa, morfologia) • typy słów • słowa funkcyjne: i, że ... • słowa „leksykalne”: koń, szukać ... • idiomy: ciemno choć oko wykol, drzeć koty • frazy o znaczeniu nie będącym funkcją znaczeń składników: • biały kruk, skrzynia biegów • powiązania z innymi słowami • szukać czego? • książka o czym? z czego? • słownik: zbiór informacji o słowach i charakterystycznych dla nich związkach z innymi słowami 16 z 52
Słowa – kategorie gramatyczne • Słowa należące do danego języka naturalnego dzielą się na wiele (ok. kilkunastu) kategorii składniowych • Najważniejsze kategorie składniowe to: • czasowniki (śpi, daje, ...) Verbs • rzeczowniki (przypadek, dom, szczęście, ...) Nouns • przymiotniki (wesoły, ...) Adjectives • przysłówki (wesoło, ...) Adverbs • przyimki (na, pod, ...) Prepositions • liczebniki (dwa, sto pięć, ...) Numerals • spójniki podrzędne (który, ponieważ, ...) • spójniki współrzędne (i, lub, oraz, ...) ... Conjunctions 17 z 52
Słowa – cechy gramatyczne (1) • Słowa mogą mieć wiele form różniących się wartościami cech gramatycznych: • czasowniki (liczba, osoba, czas) [number, person, time] • rzeczowniki (przypadek, liczba) [case, number] • przymiotniki (przypadek, rodzaj, liczba, stopień) [case, gender, number, degree] • przysłówki (stopień) [degree] • Słowa mogą też mieć własne (niezmienne) wartości cech: • rzeczowniki: rodzaj • czasowniki: tryb, aspekt 18 z 52
Słowa – cechy gramatyczne (2) • liczba [number] singular (pojedyncza), plural (mnoga); • przypadek [case] nominative (mianownik), genetive (dopełniacz), dative (celownik), accusative (biernik), instrumental (narzędnik), locative (miejscownik), vocative (wołacz); • osoba [person] 1st (os. 1), 2nd (os. 2), 3rd (os.3) • stopień [degree] positive (równy), comparative (wyższy), superlative (najwyższy) • aspekt [aspect] imperfect (niedokonany), perfect (dokonany) • negacja [negation] affirmative (twierdzenie), negative (zaprzeczenie) • czas [time] present (teraźniejszy), past (przeszły), future (przyszły) • ... 19 z 52
Słowa – cechy gramatyczne (3) rodzaj [gender] propozycja „szkolna” męski (masc), żeński(fem), nijaki (neut), męskoosobowy (hum-masc), niemęskoosobowy (nonhum-masc) rodzaj [gender] propozycja „formalna” 20 z 52
Rozpoznawanie mowy (1) • Wymagania: • Niezależność od mówcy • Różne tony, dialekty itp. • Mowa spontaniczna • Ciągłość – rozpoznawanie granic słów bez dodatkowych pauz, rozpoznawanie granic zdań • Niezależność od dziedziny (od treści wypowiedzi) – słowniki • Uczenie się nowych słów – słowniki • Niezawodność (odporność na błędy przy rozpoznaniu) 21 z 52
Rozpoznawanie mowy (2) • Pytanie: • Wiedza gramatyczna • Wiedza o dziedzinie (kontekście) • Jak najlepiej łączyć? • Odpowiedź: • W ramach teorii języka, która bazuje na • Funkcjonalności • Matematycznym uzasadnieniu efektywności • Algorytmizacji 22 z 52
Problemy fonetyki i fonologii (1) • Problemy rozpoznawania dźwięków • Różne „a” itp. w tym samym języku • Różne brzmienie w różnych językach • Problem pauz • Problem szumu • Gromadzenie baz danych nagrań • Gromadzenie baz danych – słowników fonetycznych • Formalizmy • HMM – ukryte modele Markowa • Sieci neuronowe • N-gramy 23 z 52
Problemy fonetyki i fonologii (2) • Podstawowy element sieci Markowa są tzw. polifony – odpowiedniki fonemów (z uwzględnieniem ich sąsiedztwa) • Wynik rozpoznawania – pewna liczba mniej lub bardziej prawdopodobnych ciągów słów • Jak podzielić ten ciąg na zdania? Problem nie jest rozwiązany nawet teoretycznie • Wykorzystanie „huśtawki” wysokości tonów wypowiedzi (prozodia) • Wykorzystanie analizy składniowej jako instrumentu wyszukiwania centrum predykatywnych: • Ciąg słów przetwarzany na postać tekstową • Analiza morfologiczna i składniowa (ew. semantyczna) • Odnalezienie kontekstów centrum predykatywnych 24 z 52
Problemy fonetyki i fonologii (3) • Błędy rozpoznawania • Pominięcie wyrazu • Niedokładne rozpoznanie końcówki • Wstawianie dodatkowych krótkich wyrazów (np. przyimków) • Słowniki • Porównywanie z hasłami słownika • Nie ma możliwości rozpoznania nieistniejącego w słowniku słowa • „Próg prawdopodobieństwa” rozpoznanego słowa do zawartego w słowniku • Informowanie o wykryciu niezgodnego słowa • Podanie słowa najbardziej zbliżonego do hasła słownikowego • Pominięcie wątpliwego słowa 25 z 52
Problem generowania mowy • Generowanie słowa • Generowanie wypowiedzi • Intonacja • Akcent logiczny • Pauzy między słowami • Jako ciekawostka – wykorzystanie francuskiej bazy danych nagrań do syntezy polskiej mowy • Niespodziewane zastosowanie: do nauczania dzieci niesłyszących mówienia (przez porównanie obrazków wzorcowego wykresu (z BD nagrań) i aktualnego) 26 z 52
Rozpoznawanie wypowiedzi w języku migowym • Te same problemy, w tym aspekty fonetyczne • Różnica: rozpoznać /generować trzeba nie dźwięki, a gesty • Problemy dodatkowe: przetwarzanie 3D2Dsymulacja 3D • To samo: język warg (czytanie z ust) 27 z 52
Morfologia i lematyzacja • Lematyzacja: wskazanie formy podstawowej analizowanego słowa • Analiza morfologiczna: przypisanie wyrazom odpowiednich kategorii gramatycznych • Cześć mowy • Rodzaj • Liczba • Przypadek • Tryb • Osoba itd. • Synteza (generowanie) morfologiczne: generowanie form wyrazów wg polecenia – zbioru cech (kategorii) gramatycznych 28 z 52
Morfologia • Wiedza o strukturze słowa – szczególnie dla języków fleksyjnych • Bazy danych • Gromadzenie dużych zbiorów • Weryfikacja • Dostęp, • Szybkie przeszukiwanie itd. • Teoretycznie problem jest rozwiązany • Praktycznych wcieleń (doskonałych) niewiele • Obejmowanie języka w całości • Bezbłędne działanie • Analiza wg analogii dla słów brakujących w słowniku • Wysoka wydajność 29 z 52
Morfologia: analiza i generowanie • Wszystkie słowoformy w bazie danych • W bazie danych – rdzenie i końcówki • W bazie danych – formy podstawowe i końcówki • Różne gramatyki, w tym bazujące na regułach, teorii automatów, statystyczne itp. • Problemy ogólne • Algorytmy poszukiwania odpowiedniej formy • Złożoność algorytmów • Objętość baz danych • Szybkość działania • Niezawodność itd. 30 z 52
Morfologia: anotowanie informacjami składniowymi • Przypisywanie słowom nazwy kategorii składniowej i wartości cech morfologicznych, np. piła: V, os.3, l. poj., r.ż, cz. przeszły • N, l.poj., r. ż., mian. • Zastosowania: zamiana tekstu na mowę, wyszukiwanie informacji, analiza składniowa, tłumaczenie. • Dane: • zbiór tagów (indeksów, etykiet) (tagset) • słownik zawierający słowa wraz z ich tagami (lub bez tagów – zależy od podejścia) • tekst do analizy 31 z 52
Tagset • Spis wszystkich możliwych kombinacji cech gramatycznych dla danego języka • T C1×C2×... × Cn • zwykle ciąg liter i cyfr: • system skrótów: NNS (gen. noun, plural) • system pozycyjny: pozycja i odpowiada Ci: • AAMP3----2A---- • gen. Adj., Masc., Pl., 3rd case (dative), comparative (2nd degree of comparison), Affirmative (no negation) • tense, person, variant, etc.: N/A (oznaczone ‘-’) 32 z 52
Problemy • Tagi podlegają standardowemu prawu dystrybucji: • większość słów ma tylko jedną kategorię składniową • z pozostałej część większość słów ma dwie kategorie … • Oczywiście, najczęściej pojawiające się słowa często mają więcej niż jeden tag, np. • lub (czasownik i spójnik), • mam (czasownik i rzeczownik) itd. • ! Stosunkowo łatwo przypisać tagi poszczególnym słowom, ale nie tak łatwo przypisać tagi słowom w tekście • tzn. problemem jest stwierdzenie, które z jednakowo wyglądających słów zostało użyte w danym miejscu tekstu 33 z 52
Morfologia: wynik analizy (Morf) 34 z 52
Problem niejednoznaczności 35 z 52
Składnia (syntaktyka) (1) • Analiza składniowa: określenie struktury zdania i jego części składowych • Teoretyczne zasady składni języka – dla każdego języka z osobna • Topologia zdania • Problemy klasyfikacji wyrazów • W gramatyce tradycyjnej • W lingwistyce komputerowej • Funkcje gramatyczne • Tradycyjne • Nietradycyjne 36 z 52
Składnia (syntaktyka) (2) • Wiedza o sposobie łączenia słów we frazy, a fraz w zdania • Potrzeba informacji składniowych: • analiza i korekta gramatyczna • analiza pytań do baz danych • wyszukiwanie informacji • generowanie wypowiedzi w języku naturalnym • tłumaczenie • Opisy formalne języka polskiego: • S. Szpakowicz, Formalny opis składniowy zdań polskich, Wyd. UW, 1986 • M. Świdziński, Formalna gramatyka języka polskiego, Wyd. UW, 1992 37 z 52
Gramatyki formalne, kryterium • Kryterium główne: adekwatność i algorytmizacja podejścia, co jest ważne dla implementacji • W jakim celu jest opracowywana analiza (jaka faza analizy tekstu jest następna, np. semantyka, transfer itp.) • Jak formalizm radzi sobie z opisem gramatycznych zjawisk • Dopełnienia dalsze i bliższe • Szyk zdania • Anafory • Elipsy itp. • Ścisła zależność między strukturami składniowymi i strukturami morfologicznymi • Szczególnie – dla języków fleksyjnych 38 z 52
Gramatyki składni • Niech x – niepusty łańcuch (słowo) w słowniku V, i niech π jest zbiorem wszystkich symboli x. Binarna relacja na π, dla której graf <π, > jest drzewem, będziemy nazywać relacją zależności składniowej dla x. Samo drzewo <π, > nazywa się drzewem zależności dla x. • Niech π – niepusty łańcuch (słowo) w słowniku V. Zbiór C odcinków łańcucha π nazywa się systemem składników bezpośrednich (drzewem struktury frazowej), jeżeli: • Do C należy odcinek składający się ze wszystkich elementów π, w tym do C należą wszystkie pojedyncze elementy π • Dowolne dwa odcinki C lub nie mają wspólnych elementów, lub jeden z nich zawiera inny 39 z 52
Frazy • Frazy (phrases) to ciągi słów/fraz • proste / zdaniowe (zdania, składające się z fraz, także są frazami) • podział w zależności od typu elementu głównego (podkreślony): • rzeczownikowe : ciekawa książka o malarstwie • przymiotnikowe: zupełnie nowa • przysłówkowe: bardzo dobrze • przyimkowe: w piątym rzędzie • czasownikowe: złapać zająca • liczebnikowe: drugi raz 40 z 52
Frazy rzeczownikowe, NP • dom • najstarszy dom w okolicy • dom, którego dach pomalowany był na niebiesko • największa ulewa od czasu, kiedy jego dziadek, zmuszony przez rodzinę żony, przeprowadził się do tego miasteczka • kobieta, dziecko i pies • ani wznoszenie błagalnych okrzyków ani bicie głową w mur 41 z 52
Frazy przyimkowe, PP • w domu • z szybkim napastnikiem należącym do drużyny przeciwnej • do punktu, z którego już nie mógł się wycofać • do smutku i żalu lub do czarnej rozpaczy • w góry lub nad morze 42 z 52
Frazy liczebnikowe, NumP • trzynaście • dwadzieścia tysięcy czterysta trzy i pół godziny • pierwsi dwaj chłopcy • albo pięciu albo tylko dwóch • liczebniki porządkowe (pierwszy, trzysta trzeci) są zwykle traktowane jako przymiotniki 43 z 52
Frazy przymiotnikowe, AdjP • biały • najbardziej zmęczony z całej drużyny • większy i bielszy niż przed rokiem • zarówno pewny i głęboko przeświadczony o swej racji i w istocie najbardziej zacięty z nas wszystkich, jak też zaciekle walczący o swoje prawa 44 z 52
Frazy przysłówkowe, AdvP • szybko • szybciej niż ktokolwiek mógł przypuszczać • wczoraj lub jeszcze dawniej • zarówno niewygodnie, jak też z całą pewnością ładniej, a także bardziej elegancko 45 z 52
Frazy czasownikowe, VP • kupił obraz • wierzę, że o tym nie zapomnisz • wczoraj bez żadnego namawiania przewiózł fotel samochodem z mieszkania ciotki do pracowni za 200 zł • kupił używany samochód, naprawił go i sprzedał za dwukrotnie wyższą cenę 46 z 52
Podstawowe problemy składniowe • Uzgodnienia (~równość cech) • Podmiot – orzeczenie: (rodzaj, liczba, osoba) • Piotr idzie *idą ale: • Piotr i Maria idą. Idzie / idą Piotr i Maria. • Pięciu chłopców przyszło. Dwaj chłopcy przyszli. • Rzeczownik – przymiotnik: (przypadek, rodzaj, liczba) • białym krukiem (*kruka) • itd. 47 z 52
Problemy składniowe, cd. • Negacja • Jan chciał kupić książkę. • Jan nie chciał kupić książki / *książkę. • Jan nikogo nie oszukał. • *Jan nikogo oszukał. • Koordynacja (struktury współrzędne) • frazy tego samego typu: koń i osioł; mały i zadziorny • frazy różnego typu: ufnie i bez strachu • Frazy „niepełne”: • złapał i ze złością odrzucił piłkę 48 z 52
Kolejne problemy • Szyk (ew. „przesunięcia”) • Do niego Jan szedł po raz drugi. • I looked up his grade. I looked his grade up. • Zależności odległe • Kogo chciałabyś, aby Piotr zaprosił? • To ten, którego musiałbyś poprosić o zgodę • Nieciągłość fraz • Smutny czekał go koniec. • Elipsy (brak wymaganych słów bądź fraz) • dialogi: Kogo widzisz? - Piotra [widzę]. • koordynacja różnego typu składników czy elipsa? • Pittsburgh prowadzi 4:0 ale Detroit [prowadzi] tylko 3:1. • pro-drop (pominięcie zaimkowego podmiotu) (to dość proste do analizy) • [Ja] zdałam egzamin. 49 z 52
Drzewo struktury frazowej ((DaimlerChrysler’s shares)NP (rose (three eights)NUMP (to 22)PP-NUM )VP )S 50 z 52