350 likes | 520 Views
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1
E N D
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje:wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl
Spotkanie 6 Poliqarp.
Znakowanie Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): • lokalizacja • PoS • morfologia • składnia • semantyka • pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! 3
Korpus IPI PAN Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 4
Korpus IPI PAN Grant KBN numer 7 T11C 043 20 Instytut Podstaw Informatyki PAN (IPI PAN) 04.2001 – 03.2004 Książka dostępna jako pdf: http://nlp.ipipan.waw.pl/~adamp/Papers/2004-corpus/ 5
Korpus IPI PAN Korpus IPI PAN – jeden z dwóch publicznie dostępnych korpusów języka polskiego: • [Korpus SFPW (1967-1971) – 500 tys. słów] • Korpus PWN (wersja sieciowa) – 40 mln segmentów (7,5 mln) http://www.korpusy.net/index.php/ http://korpus.pl/ • Korpus IPI PAN (2004) – 100 mln segmentów, znakowany morfosyntaktycznie, dostępny on-line: http://korpus.pl/poliqarp/poliqarp.php 6
Przetwarzanie korpusu • Konwersja tekstów wejściowych do formatu XML. • Podział tekstu na wypowiedzenia. • Przejście do postaci binarnej. • Segmentacja. • Znakowanie. 7
Podstawy teoretyczne Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski http://nlp.ipipan.waw.pl/~wolinski/morfeusz/znakowanie.pdf Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), 39-54. 8
Podstawy teoretyczne Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem(termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. 9
Podstawy teoretyczne Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. 10
Podstawy teoretyczne Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. 11
Kategorie gramatyczne Saloni, Świdziński: przypadek poprzyimkowość pozycja deprecjatywność liczba rodzaj osoba czas tryb stopień 12
Kategorie gramatyczne IPI PAN 13
PoS Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego (1974) Mamyleksem LX. Pytamykolejno: (1) czy jest odmienny; (2) czyodmieniasięprzezprzypadek; (3) czyodmieniasięprzezosobę; (4) czyodmieniasięprzezrodzaj; (5) czyodmieniasięprzezliczbę; (6) czy jest samodzielnyskładniowo; (7) czypełnifunkcjęłączącą; (8) czy ma rząd. 17
PoS 18
PoS RZECZowniki PRZYMiotniki LICZebniki CZASowniki CZASNIEWL — czasowniki niewłaściwe PART-PRZYS — partykuło-przysłówki SPOJ — spójniki PRZYIMki WYKrzykniki 19
Poliqarp Poliqarp: POLyinterpretationIndexing Query and Retrieval Processor Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: • graficzna (Windows – wersje po 2000, GNU/Linux, • tekstowa (GNU/Linux), • internetowa. 26
Poliqarp Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa 2007. Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa 1958-70. 27
Poliqarp Zapytania o segmenty: • małej • mam pieniądze • marek/i Kasztowość Wyrażenia regularne • ”,” • ”dom|domy” • ”chłop[iy]” • ”chłop.?” • ”.*pisać” 28
Poliqarp Zapytania o formy podstawowe: • [base=panować] • [base=”dobry|mały”] • [base=”.*pisa.*”] • [orth=”semaforu|semafora”] 29
Poliqarp Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] 30
Poliqarp Kwerendy Holmesowe: • KTÓRY (zaimek względny): przyimki złożone. • JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ • PRZEJECHAĆ – wprowadzane przyimki. • Spójniki z aglutynantem. • Aglutynant doczepiony wewnątrz zdania. • Czasowniki wymagające zdania JAKOBY. 31
Poliqarp Zapytania o znaczniki morfosyntaktyczne: [pos=siebie] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] 32
Poliqarp 33
Poliqarp 34
Poliqarp 35