1 / 28

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1

javier
Download Presentation

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje:wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl

  2. Spotkanie 3 Sherlock (Holmes).

  3. Korpus PWN (1) Dostęp: • http://korpus.pwn.pl/(wersja demonstracyjna) • Korpus Języka Polskiego PWN, płyta CD, Warszawa 2003 (7 mln: PWN + „Rzeczpospolita”) • Pełny korpus sieciowy (oferta komercyjna)

  4. Korpus PWN (2)

  5. Wyszukiwarki (1) Wyszukiwarki: --- Dla klientów PWN • on-line (wersja demonstracyjna) • na płycie (wersja 7 mln) --- Dla leksykografów PWN • Sherlock

  6. Wyszukiwarki (2)

  7. Wyszukiwarki (3)

  8. Sherlock - Holmes (1) • Zadanie: opracowanie oprogramowania do obsługi wielkich korpusów tekstów polskich. • Odbiorca: leksykograf. • Podstawa empiryczna: zrównoważony wycinek Korpusu PWN (2-7 mln słów). • Narzędzia: przeszukiwanie tekstu, nie znakowanie. • Wyniki kwerendy: dostępne natychmiast. 8

  9. Sherlock - Holmes (2) Obsługa korpusu: • segmentacja tekstu na wypowiedzenia • analiza gramatyczna słów (także: lematyzacja) • analiza gramatyczna nieznanych słów na podstawie zakończeń • ujednoznacznianie jakościowe 9

  10. Sherlock - Holmes (3) Produkt końcowy: • narzędzia ujednoznaczniania morfologicznego • publikacje 10

  11. Sherlock - Holmes (4) Narzędzia • [tagger] • ZDANIA • AMOR • [slowotworca] • NIEZNANE • REGULY • FREQ Weszły one w skład aplikacji Sherlock (środowisko Linux). Holmes – program wizualizacji wyników w środowisku Windows. 11

  12. Sherlock - Holmes (5) Publikacje • M. Rudolf, Metody automatycznej analizy korpusu tekstów polskich. Uniwersytet Warszawski. Wydział Polonistyki, Warszawa 2004. Stron 152. • M. Świdziński, M. Derwojedowa, M. Rudolf, „Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich”. BPTJ LVIII, Warszawa 2003. 187-199. • J. Rabiega-Wiśniewska, M. Rudolf, „Towards a Bi-Modular Analyzer of Large Polish Corpora”. [W:] Investigations into Formal Slavic Linguistics. Contributions of the FDSL IV, Frankfurt am Main 2003. 363-372. 12

  13. Ujednoznacznianie (1) Program ujednoznaczniania automatycznego = tagger. Praktycznie: • wygenerowanie wszystkich interpretacji • odrzucenie interpretacji niewłaściwych 13

  14. Ujednoznacznianie (2) Metody ujednoznaczniania: • statystyczne • regułowe • lingwistyczne (z regułami usuwania interpretacji) W naszym projekcie – metody lingwistyczne. Por. K. Oliva, „Linguistics-Based PoS-Tagging of Czech: Disambiguation of se as a Test Case”. [W:] Investigations into..., 299-314. 14

  15. Ujednoznacznianie (3) Przebieg analizy: • segmentacja tekstu na wypowiedzenia (program ZDANIA) • analiza morfologiczna (program AMOR z zadanym słownikiem gramatycznym; J. Rabiega-Wiśniewska. • analiza nieznanych słów (program NIEZNANE) • wczytanie i posortowanie reguł lingwistycznych, wielokrotne wypróbowywanie każdej reguły dla danego wypowiedzenia (program REGULY) 15

  16. Ujednoznacznianie (4) Wyszukiwanie: Program korzysta jedynie z informacji dostępnych w plikach, w czasie przeszukiwania nie jest przeprowadzana żadna dodatkowa analiza 16

  17. Ujednoznacznianie (5) Przykładowe reguły: REGUŁA Dwie formy finitywne czasownika muszą być rozdzielone znakiem interpunkcyjnym lub spójnikiem. REGUŁA Słowo zjest formą przyimka tylko wtedy, kiedy następuje po nim forma dopełniacza lub narzędnika. REGUŁA Słowo zaraz jest formą partykuły. REGUŁA Przymiotnik i sąsiadujący z nim rzeczownik są uzgodnione pod względem przypadka, liczby i rodzaju. 17

  18. Ujednoznacznianie (6) Zbiór 110 reguł (z zadanym ręcznie stopniem niezawodności): • ogólne • leksykalne • frekwencyjne • heurystyczne 18

  19. Ujednoznacznianie (7) Pokaz: Myśl łatwo powstająca natychmiast przepływa w inną lub znika Kuriata To tak jakby ktoś z pięćdziesiąt razy dziennie biegał tam i z powrotem na czwarte piętro. Kowalewski Czułam, że mi zaraz łzy trysną z oczu, bo już mnie kurcz chwycił za gardło.Bocheński Istnieją skutecznemetody, głównie chemiczne, zwalczania chorób i szkodników roślin, a tym samym ograniczania szkód. Fereniec 19

  20. Holmes (1) 20

  21. Holmes (2) 21

  22. Holmes (3) 22

  23. Holmes (4) 23

  24. Holmes (5) 24

  25. Kwerendy (1) • [ 1] charakterystyka przyimek [ 2] następny leksem godzina [* ] tylko pierwsze wystąpienie leksemu w warunku pierwszym • [ 1] charakterystyka rzeczownik [ 2] następny leksem o [ 3] następny charakterystyka przymiotnik, miejscownik [ 4] następny charakterystyka rzeczownik, miejscownik 25

  26. Kwerendy (2) • [ 1] leksem bowiem [ 2] poprzedni słowo , • [ 1] wzorzec anty* [ 2] następny charakterystyka rzeczownik [ * ] tylko pierwsze wystąpienie leksemu w warunku drugim • [ 1] charakterystyka liczebnik_ zbiorowy [ 2] następny charakterystyka rzeczownik [ 3] ten samnie leksem dziecko 26

  27. Dalsze poszukiwania (1) [1] RESTRUKTURYZACJA w różnych stylach. [2] Wypowiedzenia pytajne, wykrzyknikowe, niepytajne. [3] Myślnik i dywiz: leksemy złożone. [4] KTÓRY (zaimek względny): przyimki złożone. [5] JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ, PRZEJECHAĆ – wprowadzane przyimki. [6] Spójniki z aglutynantem. [7] Aglutynant doczepiony wewnątrz zdania. [8] Czasowniki wymagające zdania JAKOBY. 27

  28. Dalsze poszukiwania (2) [9] Poszukiwania kolokacji. [10] Frazeologizmy łączliwe: lista składników wymiennych. [11] Przymiotnik w stopniu wyższym: OD czy NIŻ? [12] Bezokoliczniki po DAĆ. [13] AŻ1 i AŻ2. 28

More Related