1 / 35

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1

silvio
Download Presentation

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje:wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl

  2. Spotkanie 6 Poliqarp.

  3. Znakowanie Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): • lokalizacja • PoS • morfologia • składnia • semantyka • pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! 3

  4. Korpus IPI PAN Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 4

  5. Korpus IPI PAN Grant KBN numer 7 T11C 043 20 Instytut Podstaw Informatyki PAN (IPI PAN) 04.2001 – 03.2004 Książka dostępna jako pdf: http://nlp.ipipan.waw.pl/~adamp/Papers/2004-corpus/ 5

  6. Korpus IPI PAN Korpus IPI PAN – jeden z dwóch publicznie dostępnych korpusów języka polskiego: • [Korpus SFPW (1967-1971) – 500 tys. słów] • Korpus PWN (wersja sieciowa) – 40 mln segmentów (7,5 mln) http://www.korpusy.net/index.php/ http://korpus.pl/ • Korpus IPI PAN (2004) – 100 mln segmentów, znakowany morfosyntaktycznie, dostępny on-line: http://korpus.pl/poliqarp/poliqarp.php 6

  7. Przetwarzanie korpusu • Konwersja tekstów wejściowych do formatu XML. • Podział tekstu na wypowiedzenia. • Przejście do postaci binarnej. • Segmentacja. • Znakowanie. 7

  8. Podstawy teoretyczne Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski http://nlp.ipipan.waw.pl/~wolinski/morfeusz/znakowanie.pdf Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), 39-54. 8

  9. Podstawy teoretyczne Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem(termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. 9

  10. Podstawy teoretyczne Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. 10

  11. Podstawy teoretyczne Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. 11

  12. Kategorie gramatyczne Saloni, Świdziński: przypadek poprzyimkowość pozycja deprecjatywność liczba rodzaj osoba czas tryb stopień 12

  13. Kategorie gramatyczne IPI PAN 13

  14. Kategorie gramatyczne 14

  15. Kategorie gramatyczne 15

  16. Kategorie gramatyczne 16

  17. PoS Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego (1974) Mamyleksem LX. Pytamykolejno:   (1) czy jest odmienny; (2) czyodmieniasięprzezprzypadek; (3) czyodmieniasięprzezosobę; (4) czyodmieniasięprzezrodzaj; (5) czyodmieniasięprzezliczbę; (6) czy jest samodzielnyskładniowo; (7) czypełnifunkcjęłączącą; (8) czy ma rząd. 17

  18. PoS 18

  19. PoS RZECZowniki PRZYMiotniki LICZebniki CZASowniki CZASNIEWL — czasowniki niewłaściwe PART-PRZYS — partykuło-przysłówki SPOJ — spójniki PRZYIMki WYKrzykniki 19

  20. Klasy gramatyczne (fleksyjne) 20

  21. Klasy gramatyczne (fleksyjne) 21

  22. Klasy gramatyczne (fleksyjne) 22

  23. Formy podstawowe 23

  24. Formy podstawowe 24

  25. Formy podstawowe 25

  26. Poliqarp Poliqarp: POLyinterpretationIndexing Query and Retrieval Processor Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: • graficzna (Windows – wersje po 2000, GNU/Linux, • tekstowa (GNU/Linux), • internetowa. 26

  27. Poliqarp Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa 2007. Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa 1958-70. 27

  28. Poliqarp Zapytania o segmenty: • małej • mam pieniądze • marek/i Kasztowość Wyrażenia regularne • ”,” • ”dom|domy” • ”chłop[iy]” • ”chłop.?” • ”.*pisać” 28

  29. Poliqarp Zapytania o formy podstawowe: • [base=panować] • [base=”dobry|mały”] • [base=”.*pisa.*”] • [orth=”semaforu|semafora”] 29

  30. Poliqarp Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] 30

  31. Poliqarp Kwerendy Holmesowe: • KTÓRY (zaimek względny): przyimki złożone. • JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ • PRZEJECHAĆ – wprowadzane przyimki. • Spójniki z aglutynantem. • Aglutynant doczepiony wewnątrz zdania. • Czasowniki wymagające zdania JAKOBY. 31

  32. Poliqarp Zapytania o znaczniki morfosyntaktyczne: [pos=siebie] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] 32

  33. Poliqarp 33

  34. Poliqarp 34

  35. Poliqarp 35

More Related