290 likes | 545 Views
Automatyczna analiza i synteza derywacyjna tekstu polskiego. Joanna Rabiega-Wiśniewska Zakład Językoznawstwa Komputerowego Uniwersytet Warszawski jrw@mercury.ci.uw.edu.pl. seminarium Przetwarzanie języka naturalnego IPI PAN, 25.10.02. Plan referatu. Przedstawię…
E N D
Automatyczna analiza i synteza derywacyjna tekstu polskiego Joanna Rabiega-Wiśniewska Zakład Językoznawstwa Komputerowego Uniwersytet Warszawski jrw@mercury.ci.uw.edu.pl seminarium Przetwarzanie języka naturalnego IPI PAN, 25.10.02
Plan referatu Przedstawię… • …źródła mojego zainteresowania derywacją; • …cel, który sobie wyznaczyłam; • …zastosowania automatycznej derywacji; • …problemy związane z zastosowaniami; • … podstawy formalnego opisu polskiego słowotwórstwa; • …problemy związane z opisem; • … pomysł na implementację; • …oraz podsumowanie.
Dlaczego słowotwórstwo? • IV Konferencja „Formal Description of Slavic Languages” w Poczdamie, listopad 2001. • konwersatorium „Językoznawstwo komputerowe w praktyce” (2001/2002): praca Doroty Kalinowskiej „Quasi-słowotwórstwo”. • brak opracowań formalnych.
Cele • stworzenie formalnego i praktycznego opisu polskiego słowotwórstwa. • zaprojektowanie narzędzia (narzędzi) do pełnej analizy oraz syntezy morfologicznej. • przebudowa słownika gramatycznego programu AMOR – powiązanie ze sobą leksemów w rodziny derywacyjne.
Zastosowania (1) • automatyczna analiza słowotwórcza: • podanie podstawy słowotwórczej derywatu; • podanie znaczenia (kategorie słowotwórcze). • automatyczna synteza słowotwórcza: • tworzenie derywatów od zadanej podstawy; (formalnie lub pojęciowo).
Zastosowania (2) Poziomy wykorzystania analizy i syntezy słowotwórczej: • użytkownik programów przetwarzających teksty (np. wyszukiwarki); • językoznawca; • leksykograf.
Zastosowania (3) Automatyczna analiza derywacyjna: • słowniki komputerowe (odesłanie użytkownika do znanego hasła oraz stawianie hipotez co do znaczeń derywatów). nieliterackość literackość literacki pseudoromański romański
Zastosowania (4) Automatyczna analiza derywacyjna: • przeszukiwanie korpusów tekstów; • sprawdzanie produktywności reguł tworzenia nowych derywatów; • leksykografia.
Zastosowania (5) Analiza i synteza derywacyjna: • sprawdzanie pisowni: • analiza: nieznane słowo może pochodzić od innego, znanego słownikowi; • synteza: dodawanie grup derywatów. dwu-, trzy-, piętnasto- dwusilnikowy, trzywieżowy, piętnastopokojowy
Zastosowania (6) Automatyczna synteza derywacyjna: • wyszukiwanie w zbiorach tekstów: • konieczna analiza fleksyjna. ząbkować : ząbkowanie, nieząbkujący, ale raczej nie – ząbkowany
Problemy z zastosowaniami • tworzenie mało prawdopodobnych derywatów: • kontrola pisowni: siedmioświatowy, siedmiostołowy. • błędne rozpoznawanie pewnych leksemów jako derywatów innych: • analiza derywacyjna: kartka karta; • wyszukiwanie: lity litość.
Rozwiązania • uznawanie za derywaty słów spoza słownika: • blacik blat, korelujący korelować; • a nie: macka maca. • zdefiniowanie klas (listy podstaw, opis semantyczny, itp.) chociażby przez znaczniki: • rzeczowniki oznaczające „istoty młode” (lwię, kocię, słonię) tworzone są tylko od rzeczowników oznaczających „istoty dorosłe”.
Tradycyjny opis słowotwórczy (1) • między gramatyką a słownikiem: • klasy derywacyjne zawierają leksemy tworzone różnymi formantami (spawacz, malarz, grafik); • formanty cechuje wieloznaczność (marynarka, wiertarka, bibliotekarka); • nieprzewidywalna liczba derywatów (kartoflisko, rtęciówka).
Tradycyjny opis słowotwórczy (2) • klasyfikacja semantyczna: • nazwy wykonawców czynności, narzędzi, miejsc, itd.; • analiza budowy istniejących (potwierdzonych) leksemów. • niedoceniana rola fleksji; • brak systematycznego opisu wykładników formalnych; • brak opisu potencji; • nacisk na „czucie” użytkownika.
Propozycja opisu formalnego • podział materiału na grupy za względu na regularność derywacji; • opis klas; • budowa reguł derywacyjnych: • włączenie informacji fleksyjnej; • wewnętrzne reguły fonetyczne. • wykorzystanie słownika gramatycznego programu AMOR.
Materiał empiryczny (1) Derywacja regularna (I): • derywaty imienne odczasownikowe: • odsłowniki (smażenie); • imiesłowy przymiotnikowe (smażący, smażony); • imiesłowy przysłówkowe (smażąc, usmażywszy).
Materiał empiryczny (2) Derywacja regularna (I): • derywaty odprzymiotnikowe: • nazwy cech (wesołość, finitywność); • zdrobnienia (głupawy); • stopień wyższy i najwyższy.
Materiał empiryczny (3) Derywacja regularna (I): • formacje powstałe przez przyłączanie określonych cząstek: • ‘nie-’+ odsłownik (niewerbalizowanie); • ‘nie-’+ przymiotnik (niemieszkalny); • liczebnik + ‘lecie’ (pięciolecie); • liczebnik + ‘letni’ (sześćdziesięcioletni).
Materiał empiryczny (4) Derywacja średnio regularna (II): • nazwy żeńskie (krupierka, listonoszka); • zdrobnienia przymiotników (czerwoniutki); • zdrobnienia rzeczowników (stolik, sówka); • nazwy miejsc (kawiarnia); • nazwy mieszkańców (Warszawianin).
Materiał empiryczny (5) Derywacja średnio regularna (II): • liczebnik + przymiotnik (piętnastoodcinkowy, trzystufuntowy); • przedrostki ‘anty-’, ‘para-’, ‘kontr-’, ‘arcy-’, ‘mini-’ (antyhiszpański, arcygłupi).
Materiał empiryczny (6) Derywacja mało regularna (III): • derywaty mało seryjne (kreskówka); • podgrupy kategorii semantycznych (koszulówka); • grupy zróżnicowane wewnętrznie (filmować, żelować).
Problemy z danymi (1) • ograniczenia semantyczne podstawy: • nazwy żeńskie (marynarka, szoferka, magisterka); • zdrobnienia przymiotników (gorącutki, pradawniutki); • zdrobnienia rzeczowników (inteligencyjka). • uznanie leksemu za derywat: • matka mata, maska masa. • znaczenie derywatu: • czterowykwintny?, siedmiogrząski?
Problemy z danymi (2) • nadmiarowość: • antyzajęczy?, kontrkrzesło?, minikrowa? • granica między fleksją i derywacją (I); • równokształtność derywatu z istniejącym leksemem.
Przykłady reguł (1) 1. nazwa żeńska (‘pokrewieństwo’) od rzeczownika męskoosobowego: F(Dop.l.p.mos) –a +owa F(Mian.l.p.ż.) majster majstrowa, policjant policjantowa 2. nazwa cechy: F(Mian.l.p.m.) [-i]/[y] +ość F(Mian. l.p.ż.) niepośledni niepośledniość, hermetyczny hermetyczność
Przykłady reguł (2) 3. odsłowniki: F(IV 3.l.p.m.) –ł +nie F(I Mian.l.p.n.) malować malowanie destylować destylowanie 4. liczebniki z cząstką ‘-stolecie’: F(Mian.l.p.m.) –sty +stolecie F(I Mian.l.p.n.) dwudziesty dwudziestolecie
Implementacja Funkcje programu Słowotwórca(autor Michał Rudolf): • odcinanie prefiksów; • odcinanie sufiksów; • odcinanie zakończeń; • dodawanie zakończeń; • zastępowanie tekstu; • sprawdzanie charakterystyki gramatycznej; • sprawdzanie charakterystyki fleksyjnej; • sprawdzanie grupy odmiany; • sprawdzanie zakończeń .
Podsumowanie Zalety: • rozszerzenie funkcji istniejących już narzędzi przetwarzania tekstu polskiego; • możliwość wyjścia poza słownik; • możliwość sprawdzania poprawności budowy nowych jednostek znalezionychw korpusie; • dostęp do grup leksemów w słowniku.