1 / 43

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1

abdul-haney
Download Presentation

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje:wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl

  2. Spotkanie 1 Wstęp.

  3. Cele Cel: wprowadzenie w warsztat lingwistyki strukturalnej, formalnej i korpusowej. Zawartość treściowa: pokaz narzędzi przetwarzania korpusu tekstów – przeszukiwania, rozwiązywania homonimii, interpretacji różnych typów; metody interpretacji składniowej: gramatyki formalne i automatyczne analizatory składniowe; produkty: słowniki, bazy danych lingwistycznych, SGJP; analiza tekstu języka obcego; ćwiczenia dystrybucyjne; języki wizualno-przestrzenne. Nasze zajęcia: • moje opowiadanie, wykłady gości; • referowanie; • trening i rozwiązywanie zadań badawczych (w ideale – Waszych...). 3

  4. Literatura • Collins COBUILD English Language Dictionary, red. J. Sinclair, Collins: London – Glasgow 1987. • Derwojedowa, M., Rudolf, M., Świdziński, M.: „Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich”. [W:] Biuletyn Polskiego Towarzystwa Językoznawczego LVIII, Warszawa 2002. 187-199. • Korpus_IPI_PAN: http://korpus.pl/ • Korpus_PWN: http://korpus.pwn.pl/ • Looking Up: An Account of the COBUILDProject in Lexical Computing. Red. J. Sinclair, HarperCollins Publishers Limited: London – Glasgow 1987. • Narodowy Korpus Języka Polskiego: http://nkjp.pl/ • Przepiórkowski, A.: Korpus IPI PAN. Wersja wstępna. IPI PAN: Warszawa 2004. • Rudolf, M.: Metody automatycznej analizy korpusu tekstów polskich. Uniwersytet Warszawski – Wydział Polonistyki: Warszawa 2004. 4

  5. Literatura • Saloni, Z., Woliński, M., Wołosz, R., Gruszczyński, W., Skowrońska, D.: Słownik gramatyczny języka polskiego, wyd. II, Wiedza Powszechna: Warszawa 2012. • SFPW (1990): I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J. Woronczak, Słownik frekwencyjny polszczyzny współczesnej. Red. Zygmunt Saloni. Kraków: Polska Akademia Nauk – Instytut Języka Polskiego. • Świdziński, M.: Gramatyka formalna języka polskiego. WUW: Warszawa 1992 (dostępna w wersji elektronicznej). • Świdziński, M.: „Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy”. [W:] LingVaria, nr 1. Kraków 2006. 23-32. • Świdziński, M., Rudolf, M.: „Narzędzia informatyczne obsługi wielkich korpusów tekstów: wyszukiwarka Holmes”. [W:] Biuletyn Polskiego Towarzystwa Językoznawczego LXII, Warszawa 2006. • Woliński, M.: Komputerowa weryfikacja gramatyki Świdzińskiego. Niepublikowana rozprawa doktorska. IPI PAN: Warszawa 2004. 5

  6. Przedmiot „[językoznawstwo XXI stulecia] to [...] lingwistyka korpusowa. Rozwija się ona już od jakiegoś czasu; wynikła w sposób naturalny z dość szczęśliwego splotu różnorodnych okoliczności; zdominowała inne nurty i odmiany językoznawstwa nieodwracalnie. Nie można być dziś językoznawcą i nie otrzeć się o nią choćby jako użytkownik narzędzi. A skoro tak, to warto wejść w ten świat z wyboru, zadań bowiem jest moc i będzie ich coraz więcej. W świecie jest na tę najnowszą lingwistykę, nie na dowolną, mnóstwo pieniędzy – i zajmują się nią całe rzesze; to dowodzi, że coś jest na rzeczy, że czemuś to służy...” [Świdziński, M.: „Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy”. [W:] LingVaria, nr 1. Kraków 2006. 23-32.] 6

  7. Hasła Co to jest: • przetwarzanie tekstu (NLP), • korpus reprezentatywny / zrównoważony / oportunistyczny, • Korpus IPIPAN / Korpus PWN / NKJP, • homonimia / synkretyzm, • homonimia strukturalna, • tekst znakowany, • tagowanie / POS-tagging / tagset, • analizator morfologiczny, • lematyzacja / dehomonimizacja / desynkretyzacja, • rozwiązywanie homonimii słabe / mocne / jakościowe / ilościowe, • wyszukiwarka / search engine / Poliqarp, • gramatyka formalna, • drzewo składników / drzewo zależności, • parser 7

  8. Tematy • Lingwistyka korpusowa. Korpus jako źródło informacji lingwistycznej. • Homonimia jako problem teoretyczny i praktyczny. • Słownik gramatyczny języka polskiego. • Narzędzia NLP. Automatyczne analizatory morfologiczne: a.wyszukiwarka Korpusu PWN, b. (Sherlock-)Holmes, c.Poliqarp. • Collins COBUILD i Looking up. • Słownik frekwencyjny polszczyzny współczesnej. • Gramatyki formalne. GFJP. Analizatory składniowe: Świgra. Dendrarium. Baza danych wypowiedników polskich. 8

  9. Tematy • Opis strukturalny tekstu języka obcego. Polski Język Migowy i techniki analizy tekstu wizualno-przestrzennego. • Zadania praktyczne: (a) referowanie prac własnych i cudzych, (b) trening kwerend korpusowych, (c) fakty dystrybucyjne i ich zapis gramatyczny i słownikowy, (d) przygotowywanie i ocena prezentacji, (e) analiza krytyczna naukowego tekstu lingwistycznego. 9

  10. Skutki Po ukończeniu przedmiotu student: • potrafi traktować tekst języka rodzimego tak, jakby to był tekst języka obcego; • zna dwa główne postulaty metodologiczne empirysty: jawność i wyczerpującość; • potrafi analizować tekst języka obcego; • potrafi interpretować zdyscyplinowane (także formalne) opisy języków naturalnych; • potrafi korzystać z narzędzi komputerowych obsługi korpusów tekstowych; • potrafi rozwiązywać lingwistyczne zadania badawcze z wykorzystaniem danych korpusowych; • potrafi zaprojektować i przedstawić prezentację. 10

  11. Morfeusz 11

  12. SGJP 12

  13. Wyszukiwarka Korpusu PWN 13

  14. Holmes 14

  15. Poliqarp 15

  16. GFJP fno(mian, nij/poj, 3, Neg, I, pyt, licz, Tak, Sub, Pk) --> s(no#), fpt(mian, R/L, St, Neg1, I1, Pnw1, Kl1, Tak1, po, Pk1), { oblink(I, I1, I2), oblink(I, I2, I3), oblnegf(Neg, Neg1, Neg2) }, flicz(mian, R/L, O, Neg2, I2, Pnw2, nuzg, Tak2, na, Pk2), fno(dop, R/L, O, Neg3, I3, Pnw3, Kl3, Tak3, po, Pk), { rozne(R, mos), rowne(pyt, Pnw1.Pnw2), rowne(Pnw1, npyt.pyt), rowne(Pnw2, npyt.pyt), rowne(Pnw3, npyt.pyt), obltak(Tak, Tak1, Tak2), rozne(Kl3, licz), obltak(Tak, Tak2, Tak3) }.

  17. Świgra 17

  18. Dendrarium 18

  19. Drzewka… 19

  20. Drzewka… 20

  21. Szkic historii lingwistyki • Lingwistyka I połowy XX wieku – strukturalizm (F. de Saussure, J.N. Baudouin de Courtenay, M. Kruszewski, O. Jespersen, N. Trubeckoj, L. Hjelmslev, L. Tesniére, J. Kuryłowicz, L. Bloomfield, Z. S. Harris): opis struktury, nie genezy. Język naturalny: dwuklasowy system semiotyczny służący danej populacji do komunikacji uniwersalnej. • Lingwistyka formalna:opisy „typu matematycznego” – twierdzenia, dowody, rachunki. Opis na papierze!!! Wynik: definicja drzew struktury. Język naturalny: zbiór wszystkich wyrażeń poprawnych i tylko takich. Generatywizm: N. Chomsky, Syntactic Structures (1957). Inne formalizmy: GPSG, HPSG, DCG, wiele innych. 21

  22. Szkic historii lingwistyki • Lingwistyka informatyczna: zadania inżynierskie – budowa korpusu, automatyczna analiza tekstu, przetwarzanie tekstów, przeszukiwanie itp. Opis jest urządzeniem – na przykład programem komputerowym. Wynik: określony podzbiór korpusu, lista składników spełniających zadane warunki, rzeczywiste drzewa struktury dla danego wyrażenia (parsing trees). Pojęcie implementacjiopisu (formalnego). Lingwistyka korpusowa. 22

  23. Korpusy korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit. «główna część budowli; w architekturze pałacowej: część centralna budynku o charakterze reprezentacyjnym; w architekturze sakralnej: część nawowa kościoła» 4. techn. «główna, tworząca całość, część jakiegoś urządzenia, maszyny, przyrządu itp.; kadłub» Korpus obrabiarki, okrętu. 5. wojsk. «duża jednostka taktyczna składająca się z kilku dywizji lub brygad; wchodzi w skład armii lub może działać samodzielnie» Korpus zmechanizowany. Korpus piechoty, kawalerii. FR. Korpus oficerów, korpus oficerski «ogół oficerów wchodzących w skład dowództwa wojskowego» FR.Korpus kadetów «szkoła wojskowa, początkowo szkoła oficerska, później średnia szkoła ogólnokształcąca, przygotowująca kandydatów do szkół oficerskich; w Polsce istniała do roku 1956» 23

  24. Korpusy FR. polit. Korpus dyplomatyczny «ogół przedstawicieli państw obcych akredytowanych przy rządzie danego kraju; personel dyplomatyczny oraz wszyscy członkowie obcych misji dyplomatycznych korzystających z przywilejów i immunitetów» FR. Korpus konsularny «ogół konsulów w określonym państwie lub miejscowości; szefowie placówek konsularnych oraz członkowie personelu konsularnego korzystający z przywilejów i immunitetów» (wg KSJP) 24

  25. Korpusy korpus [...] 6 Korpus tekstów to zbiór książek, czasopism, artykułów itp. przeznaczony do jakichś prac lub badań. Termin specjalistyczny. …komputerowy korpus języka polskiego. (wg ISJP) 25

  26. Korpusy • Korpus to dowolny zbiór tekstów. • Korpus to dowolny zbiór tekstów, w którym czegoś szukamy. • Korpus to dowolny zbiór tekstów będący podstawą badań (np. naukowych). • Korpus narodowy??? 26

  27. Korpusy Klasyfikacje: • Rozmiar: wielki – średni – mały • Waga: zasadniczy – pomocniczy • Cel: podstawowy – przykładowy (sample) • Zakres: ogólny – szczegółowy • Status: naukowy (kulturowy) – komercyjny 27

  28. Korpusy • LOB Corpus Lancaster – Oslo/Bergen 1970-1978 Geoffrey Leech, Stig Johansson • BNC 1991-1995 Oxford, Lancaster, Longman • PELCRA Polish and English Language Corpora for Research and Applications • COBUILD • http://korpus.pwn.pl/ Korpus PWN • http://korpus.pl/ Korpus IPI PAN 28

  29. Korpusy Inne języki • ČeskýNarodní Korpus • Korpus niemiecki Berlińskiej Akademii Nauk (DWDS) • Korpusy IDS (Institutfür Deutsche Sprache) • НациональыйКорпусРусскогоЯзыка • korpusy francuskie • korpusy hiszpańskie • korpusy portugalskie 29

  30. Korpusy ●LOB The Lancaster/Oslo-Bergen Corpus Approximately 1,000,000 words of British written English dating from 1960. The corpus is made up of 15 different genre categories. Available as orthographic text, and tagged with the CLAWS1 part-of-speech tagging system. The Leeds-Lancaster Treebank and Lancaster Parsed Corpus are analyzed subsamples of the LOB corpus. For further information see the corpus manual (1978) and the tagged corpus manual (1986). (There is a local on-line copy of the tagged corpus manual at Lancaster.) http://khnt.hit.uib.no/icame/manuals/lob/INDEX.HTM 30 30

  31. ● BNC (British National Corpus) Korpusy 31

  32. Korpusy ● PELCRA 32

  33. London and Glasgow 1987 Korpusy • 33

  34. Korpusy • 34

  35. Korpusy • 35

  36. Korpusy • http://korpus.pwn.pl/ Korpus PWN Wydawnictwo Naukowe PWN przygotowało i udostępniło sieciową wersję Korpusu Języka Polskiego PWN wielkości 40 milionów słów. Korpus składa się z fragmentów 386 różnych książek, 977 numerów 185 różnych gazet i czasopism, 84 nagranych rozmów, 207 stron internetowych oraz kilkuset ulotek reklamowych. Pełna wersja sieciowa korpusu jest dostępna odpłatnie (40 mln), a bezpłatnie wersja demonstracyjna wielkości ponad 7,5 miliona słów. 36

  37. Korpusy 37

  38. Korpusy • http:/korpus.pl/ Korpus IPI PAN 2. wydanie Korpusu IPI PAN (marzec 2006) • 2.all.250.bin.tar.bz2 — pełny Korpus IPI PAN, czyli ponad 250 mln. segmentów. • 2.sample.30.bin.tar.bz2 — próbka Korpusu IPI PAN dostępna na stronie http://korpus.pl/; ponad 30 mln. segmentów. Niniejsza wersja sample jest korpusem różnorodnym o następującym składzie: • proza współczesna: ponad 10% • proza dawna: prawie 10% • teksty książkowe niebeletrystyczne (głównie naukowe): 10% • prasa: 50% • stenogramy sejmowe i senackie (w tym z komisji śledczej): 15% • ustawy: 5% 38

  39. Korpusy 39

  40. Korpusy http://nklp.pl/ NKJP […]Swoje korpusy narodowe mają już Brytyjczycy, Niemcy, Czesi i Rosjanie. Także Polakom potrzebny jest wielki, zrównoważony gatunkowo i tematycznie, korpus językowy – internetowy skarbiec polszczyzny. Narodowy Korpus Języka Polskiego jest wspólną inicjatywą Instytutu Podstaw Informatyki PAN (koordynator), Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego, zrealizowaną jako projekt badawczy rozwojowy Ministerstwa Nauki i Szkolnictwa Wyższego. Te cztery instytucje wspólnie zbudowały korpus referencyjny polszczyzny wielkości ponad półtora miliarda słów. Wyszukiwarki korpusowe (menu po prawej stronie) pozwalają przeszukiwać zasoby NKJP zaawansowanymi narzędziami uwzględniającymi odmianę polskich wyrazów, a nawet analizującymi budowę polskich zdań. […] 40

  41. Korpusy 41

  42. Narzędzia i produkty • Korpus PWN: przeglądarka http://korpus.pwn.pl/ Korpus PWN: (Sherlock) Holmes Morfeusz http://nlp.ipipan.waw.pl/~wolinski/morfeusz/ Korpus IPIPAN: Poliqarp http://korpus.pl/ Świgra http://nlp.ipipan.waw.pl/~wolinski/swigra/ • Komputerowy słownik języka polskiego Słownik gramatyczny języka polskiego http://nlp.ipipan.waw.pl/~wolinski/sgjp/ 42

  43. Podsumowanie • Lingwistyka XXI wieku – korpusowa. • Korpus – zbiór tekstów wymagających narzędzi obsługi. • Polszczyzna – dobrze opisana gramatycznie. • Istnieją narzędzia do pracy z korpusem tekstów polskich. • Istnieją narzędzia analizy morfologicznej i składniowej. • Współczesny leksykograf musi być lingwistą korpusowym. 43

More Related