1 / 28

Automatyczna analiza i synteza derywacyjna tekstu polskiego

Automatyczna analiza i synteza derywacyjna tekstu polskiego. Joanna Rabiega-Wiśniewska Zakład Językoznawstwa Komputerowego Uniwersytet Warszawski jrw@mercury.ci.uw.edu.pl. seminarium Przetwarzanie języka naturalnego IPI PAN, 25.10.02. Plan referatu. Przedstawię…

justise
Download Presentation

Automatyczna analiza i synteza derywacyjna tekstu polskiego

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Automatyczna analiza i synteza derywacyjna tekstu polskiego Joanna Rabiega-Wiśniewska Zakład Językoznawstwa Komputerowego Uniwersytet Warszawski jrw@mercury.ci.uw.edu.pl seminarium Przetwarzanie języka naturalnego IPI PAN, 25.10.02

  2. Plan referatu Przedstawię… • …źródła mojego zainteresowania derywacją; • …cel, który sobie wyznaczyłam; • …zastosowania automatycznej derywacji; • …problemy związane z zastosowaniami; • … podstawy formalnego opisu polskiego słowotwórstwa; • …problemy związane z opisem; • … pomysł na implementację; • …oraz podsumowanie.

  3. Dlaczego słowotwórstwo? • IV Konferencja „Formal Description of Slavic Languages” w Poczdamie, listopad 2001. • konwersatorium „Językoznawstwo komputerowe w praktyce” (2001/2002): praca Doroty Kalinowskiej „Quasi-słowotwórstwo”. • brak opracowań formalnych.

  4. Cele • stworzenie formalnego i praktycznego opisu polskiego słowotwórstwa. • zaprojektowanie narzędzia (narzędzi) do pełnej analizy oraz syntezy morfologicznej. • przebudowa słownika gramatycznego programu AMOR – powiązanie ze sobą leksemów w rodziny derywacyjne.

  5. Zastosowania (1) • automatyczna analiza słowotwórcza: • podanie podstawy słowotwórczej derywatu; • podanie znaczenia (kategorie słowotwórcze). • automatyczna synteza słowotwórcza: • tworzenie derywatów od zadanej podstawy; (formalnie lub pojęciowo).

  6. Zastosowania (2) Poziomy wykorzystania analizy i syntezy słowotwórczej: • użytkownik programów przetwarzających teksty (np. wyszukiwarki); • językoznawca; • leksykograf.

  7. Zastosowania (3) Automatyczna analiza derywacyjna: • słowniki komputerowe (odesłanie użytkownika do znanego hasła oraz stawianie hipotez co do znaczeń derywatów). nieliterackość literackość  literacki pseudoromański  romański

  8. Zastosowania (4) Automatyczna analiza derywacyjna: • przeszukiwanie korpusów tekstów; • sprawdzanie produktywności reguł tworzenia nowych derywatów; • leksykografia.

  9. Zastosowania (5) Analiza i synteza derywacyjna: • sprawdzanie pisowni: • analiza: nieznane słowo może pochodzić od innego, znanego słownikowi; • synteza: dodawanie grup derywatów. dwu-, trzy-, piętnasto- dwusilnikowy, trzywieżowy, piętnastopokojowy

  10. Zastosowania (6) Automatyczna synteza derywacyjna: • wyszukiwanie w zbiorach tekstów: • konieczna analiza fleksyjna. ząbkować : ząbkowanie, nieząbkujący, ale raczej nie – ząbkowany

  11. Problemy z zastosowaniami • tworzenie mało prawdopodobnych derywatów: • kontrola pisowni: siedmioświatowy, siedmiostołowy. • błędne rozpoznawanie pewnych leksemów jako derywatów innych: • analiza derywacyjna: kartka  karta; • wyszukiwanie: lity  litość.

  12. Rozwiązania • uznawanie za derywaty słów spoza słownika: • blacik  blat, korelujący  korelować; • a nie: macka maca. • zdefiniowanie klas (listy podstaw, opis semantyczny, itp.) chociażby przez znaczniki: • rzeczowniki oznaczające „istoty młode” (lwię, kocię, słonię) tworzone są tylko od rzeczowników oznaczających „istoty dorosłe”.

  13. Tradycyjny opis słowotwórczy (1) • między gramatyką a słownikiem: • klasy derywacyjne zawierają leksemy tworzone różnymi formantami (spawacz, malarz, grafik); • formanty cechuje wieloznaczność (marynarka, wiertarka, bibliotekarka); • nieprzewidywalna liczba derywatów (kartoflisko, rtęciówka).

  14. Tradycyjny opis słowotwórczy (2) • klasyfikacja semantyczna: • nazwy wykonawców czynności, narzędzi, miejsc, itd.; • analiza budowy istniejących (potwierdzonych) leksemów. • niedoceniana rola fleksji; • brak systematycznego opisu wykładników formalnych; • brak opisu potencji; • nacisk na „czucie” użytkownika.

  15. Propozycja opisu formalnego • podział materiału na grupy za względu na regularność derywacji; • opis klas; • budowa reguł derywacyjnych: • włączenie informacji fleksyjnej; • wewnętrzne reguły fonetyczne. • wykorzystanie słownika gramatycznego programu AMOR.

  16. Materiał empiryczny (1) Derywacja regularna (I): • derywaty imienne odczasownikowe: • odsłowniki (smażenie); • imiesłowy przymiotnikowe (smażący, smażony); • imiesłowy przysłówkowe (smażąc, usmażywszy).

  17. Materiał empiryczny (2) Derywacja regularna (I): • derywaty odprzymiotnikowe: • nazwy cech (wesołość, finitywność); • zdrobnienia (głupawy); • stopień wyższy i najwyższy.

  18. Materiał empiryczny (3) Derywacja regularna (I): • formacje powstałe przez przyłączanie określonych cząstek: • ‘nie-’+ odsłownik (niewerbalizowanie); • ‘nie-’+ przymiotnik (niemieszkalny); • liczebnik + ‘lecie’ (pięciolecie); • liczebnik + ‘letni’ (sześćdziesięcioletni).

  19. Materiał empiryczny (4) Derywacja średnio regularna (II): • nazwy żeńskie (krupierka, listonoszka); • zdrobnienia przymiotników (czerwoniutki); • zdrobnienia rzeczowników (stolik, sówka); • nazwy miejsc (kawiarnia); • nazwy mieszkańców (Warszawianin).

  20. Materiał empiryczny (5) Derywacja średnio regularna (II): • liczebnik + przymiotnik (piętnastoodcinkowy, trzystufuntowy); • przedrostki ‘anty-’, ‘para-’, ‘kontr-’, ‘arcy-’, ‘mini-’ (antyhiszpański, arcygłupi).

  21. Materiał empiryczny (6) Derywacja mało regularna (III): • derywaty mało seryjne (kreskówka); • podgrupy kategorii semantycznych (koszulówka); • grupy zróżnicowane wewnętrznie (filmować, żelować).

  22. Problemy z danymi (1) • ograniczenia semantyczne podstawy: • nazwy żeńskie (marynarka, szoferka, magisterka); • zdrobnienia przymiotników (gorącutki, pradawniutki); • zdrobnienia rzeczowników (inteligencyjka). • uznanie leksemu za derywat: • matka  mata, maska  masa. • znaczenie derywatu: • czterowykwintny?, siedmiogrząski?

  23. Problemy z danymi (2) • nadmiarowość: • antyzajęczy?, kontrkrzesło?, minikrowa? • granica między fleksją i derywacją (I); • równokształtność derywatu z istniejącym leksemem.

  24. Przykłady reguł (1) 1. nazwa żeńska (‘pokrewieństwo’) od rzeczownika męskoosobowego: F(Dop.l.p.mos) –a +owa F(Mian.l.p.ż.) majster  majstrowa, policjant  policjantowa 2. nazwa cechy: F(Mian.l.p.m.) [-i]/[y] +ość F(Mian. l.p.ż.) niepośledni  niepośledniość, hermetyczny hermetyczność

  25. Przykłady reguł (2) 3. odsłowniki: F(IV 3.l.p.m.) –ł +nie F(I Mian.l.p.n.) malować  malowanie destylować  destylowanie 4. liczebniki z cząstką ‘-stolecie’: F(Mian.l.p.m.) –sty +stolecie F(I Mian.l.p.n.) dwudziesty  dwudziestolecie

  26. Implementacja Funkcje programu Słowotwórca(autor Michał Rudolf): • odcinanie prefiksów; • odcinanie sufiksów; • odcinanie zakończeń; • dodawanie zakończeń; • zastępowanie tekstu; • sprawdzanie charakterystyki gramatycznej; • sprawdzanie charakterystyki fleksyjnej; • sprawdzanie grupy odmiany; • sprawdzanie zakończeń .

  27. Podsumowanie Zalety: • rozszerzenie funkcji istniejących już narzędzi przetwarzania tekstu polskiego; • możliwość wyjścia poza słownik; • możliwość sprawdzania poprawności budowy nowych jednostek znalezionychw korpusie; • dostęp do grup leksemów w słowniku.

  28. Dziękuję.

More Related