1 / 40

Hrvatski nacionalni korpus (HNK)

Hrvatski nacionalni korpus (HNK). S astavlj en u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Rađen po uzoru na BNC ( British National Corpus ) Referentni korpus za hrvatski jezik HNK verzija 3.0 - 231 M Balansirani korpus suvremenog hrvatskog jezika

elliot
Download Presentation

Hrvatski nacionalni korpus (HNK)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hrvatski nacionalni korpus (HNK) • Sastavljen u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu • Rađen po uzoru na BNC (British National Corpus) • Referentni korpus za hrvatski jezik • HNK verzija 3.0 - 231 M • Balansirani korpus suvremenog hrvatskog jezika • HNK verzija 2.5 – 101 M • Balansirani korpus suvremenog hrvatskog jezika – stara verzija

  2. Hrvatski nacionalni korpus (HNK) http://www.hnk.ffzg.hr

  3. HNK – sučelje za pretragu • Nalazi se na WWW-adresi http://filip.ffzg.hr/bonito2/run.cgi/first_form - lakše doći preko stranica HNK-a

  4. HNK – korpusi i potkorpusi

  5. HNK – sučelje za pretragu (polazna)

  6. HNK – sučelje za pretragu

  7. HNK – sučelje za pretragu • osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo primjera određene pojavnice ili fraze u okolinama u kojima se pojavljuju • Konkordancija • KWIC (Key-Word In Context) • KWAL (Key-Word And Line)

  8. HNK – sučelje za pretragu

  9. HNK – sučelje za pretragu • Klikom na stožernicu (headword) pojavljuje se širi kontekst

  10. HNK – sučelje za pretragu • Lijevo/desno razvrstavanje (sort)

  11. HNK – sučelje za pretragu • Lijevo razvrstavanje

  12. HNK – sučelje za pretragu • Konfiguriranje željenog prikaza rezultata

  13. HNK – sučelje za pretragu (izvori, rečenice)

  14. HNK – sučelje za pretragu (Save, Sample)

  15. HNK – sučelje za pretragu

  16. HNK – sučelje za pretragu

  17. HNK – sučelje za pretragu • Korpus je obilježen na više razina • 1. gramatičko obilježavanje (bit će više riječi kasnije) • vrste riječi (POS tagging) • morfosintaktičko obilježavanje (MSD) • 2. lematizacija (lemmatisation) - svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu • lematizacija se na isti način primjenjuje na morfološki supletivne oblike pa bi npr. jesam, bijah ili bila bili svedeni na leksem biti • 3. strukturalno obilježavanje • segmentacija na rečenice <s> • obilježavanje fizičke strukture teksta (naslov, podnaslov, odlomak itd.) • već smo vidjeli na prethodnim slajdovima (zelenom bojom)

  18. HNK – sučelje za pretragu (leme)

  19. HNK – sučelje za pretragu

  20. HNK – sučelje za pretragu • Pretraživanje prema vrstama riječi (CQL= Corpus Query Language) • Npr. imenice

  21. HNK – sučelje za pretragu • Rezultat bi trebale biti samo imenice

  22. HNK – sučelje za pretragu • Spomenuli smo da je jedna od vrsta obilježavanja • gramatičko obilježavanje • vrste riječi (POS tagging) – imenice, glagoli, pridjevi … • ali i potpuno morfosintaktičko obilježavanje (MSD, Morphosyntactic description) • MSD = POS + (o|v)rbp (N) • Pitanje: kako znamo koje oznake koristiti? • MSD specifikacija (Multex-East V4): • http://nl.ijs.si/ME/V4/msd/html/msd-hr.html

  23. HNK – sučelje za pretragu • Alat s pomoću kojega se obavlja automatsko • POS označavanje naziva se POS označivač (tagger) • lematiziranje naziva se lematizator • Treba imati na umu da se taj proces obavlja automatskom statističkom metodologijom → rez. nije 100 % • Ali je prilično (> 90 %) točan! • [msd="V.*"] – glagol • [msd="A.*"] – pridjev • itd.

  24. HNK – sučelje za pretragu • Kako postaviti upit • pridjev iza kojega slijedi imenica? • [msd="A.*"][msd="N.*"] – pridjev za kojim slijedi imenica

  25. HNK – sučelje za pretragu (VJEŽBA) • Kako postaviti upit • Imenica ispred koje MOŽE stajati pridjev? • [msd="A.*"]*[msd="N.*"] – RegEx

  26. HNK – sučelje za pretragu (VJEŽBA) • Kako postaviti upit • pridjev iza kojega slijedi lema glava? • [msd="A.*"][lemma="glava"]

  27. HNK – sučelje za pretragu (VJEŽBA) • Kako postaviti upit • lema glava ispred koje MOŽE stajati pridjev? • [msd="A.*"]*[lemma="glava"] • Kako postaviti upit • imenica ispred koje slijedi BAREM JEDAN pridjev? • [msd="A.*"][msd="A.*"]*[msd="N.*"] • Kako postaviti upit • Jednostavne prijedložne fraze (PP)? • [msd="S.*"][msd="A.*"]*[msd="N.*"]

  28. HNK – sučelje za pretragu • Uporaba morfosintaktičkih oznaka kod pretrage MSD = POS + (o|v)rbp (N) • Ponovo pogledati MSD specifikaciju (Multex-East V4): http://nl.ijs.si/ME/V4/msd/html/msd-hr.html • Npr. prema specifikaciji Ncmsgznači • Imenica, opća, muškog roda, u jednini, u genitivu

  29. HNK – sučelje za pretragu • Rezultat za upit • [msd="Ncmsg"]

  30. HNK – sučelje za pretragu (VJEŽBA) • Kako postaviti upit • Opća imenica u nominativu? • [msd="Nc..n"] • Kako postaviti upit • Vlastita imenica ispred koje se nalazi lema pitati? • [lemma="pitati"][msd="Np.*"] • Što pronalazi upit • [lemma="tijek"][msd="A.*"][msd="N.*"] • Također moguće i • [lemma="tvrd"][lemma="orah"]

  31. HNK – sučelje za pretragu • Pretraživanje pojavnica iz korpusa koje se nalaze u blizini (npr. kombinacija lema ili oblika) • Na standardan način unijeti prvu pojavnicu • Potrebno kliknuti na „Context” (na početku ekrana lijevo) • U tekstni okvir „Lemma(s):” unijeti drugu (treću…)? pojavnicu • Opcionalno „Query Type:” – ovisno pretražujemo li leme ili oblike riječi • Opcionalno „Window:”– ovisno želimo li definirati lijevi/desni/oba kontekst druge pojavnice i prozor u kojem se nalazi

  32. HNK – sučelje za pretragu • Izgled:

  33. HNK – sučelje za pretragu

  34. HNK – kolokacije • Što su kolokacije? Zašto su važne? • Potrebno je nešto šire teorijsko objašnjenje • Vidjeti novu prezentaciju!

  35. HNK – kolokacije • 1. Unos prve leme • 2. Klik na Make Concordance • 3. Klik na Filter • 4. Klik na Filter Concordance

  36. HNK – kolokacije • 5. Klik na Collocations • 6. Postaviti atribut na lemma, T, MI • 7. Klik na Make Candidate List

  37. HNK – kolokacije • 5. Klik na Collocations • 6. Postaviti atribut na lemma, T, MI • 7. Klik na Make Candidate List

  38. HNK – kolokacije • Rezultati poredani prema uzajamnoj obavijesnosti (MI)

  39. HNK – kolokacije • Ako nije odabran atribut lema nego Word

  40. Frekvencijska lista HNK-a

More Related