410 likes | 684 Views
Hrvatski nacionalni korpus (HNK). S astavlj en u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Rađen po uzoru na BNC ( British National Corpus ) Referentni korpus za hrvatski jezik HNK verzija 3.0 - 231 M Balansirani korpus suvremenog hrvatskog jezika
E N D
Hrvatski nacionalni korpus (HNK) • Sastavljen u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu • Rađen po uzoru na BNC (British National Corpus) • Referentni korpus za hrvatski jezik • HNK verzija 3.0 - 231 M • Balansirani korpus suvremenog hrvatskog jezika • HNK verzija 2.5 – 101 M • Balansirani korpus suvremenog hrvatskog jezika – stara verzija
Hrvatski nacionalni korpus (HNK) http://www.hnk.ffzg.hr
HNK – sučelje za pretragu • Nalazi se na WWW-adresi http://filip.ffzg.hr/bonito2/run.cgi/first_form - lakše doći preko stranica HNK-a
HNK – sučelje za pretragu • osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo primjera određene pojavnice ili fraze u okolinama u kojima se pojavljuju • Konkordancija • KWIC (Key-Word In Context) • KWAL (Key-Word And Line)
HNK – sučelje za pretragu • Klikom na stožernicu (headword) pojavljuje se širi kontekst
HNK – sučelje za pretragu • Lijevo/desno razvrstavanje (sort)
HNK – sučelje za pretragu • Lijevo razvrstavanje
HNK – sučelje za pretragu • Konfiguriranje željenog prikaza rezultata
HNK – sučelje za pretragu • Korpus je obilježen na više razina • 1. gramatičko obilježavanje (bit će više riječi kasnije) • vrste riječi (POS tagging) • morfosintaktičko obilježavanje (MSD) • 2. lematizacija (lemmatisation) - svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu • lematizacija se na isti način primjenjuje na morfološki supletivne oblike pa bi npr. jesam, bijah ili bila bili svedeni na leksem biti • 3. strukturalno obilježavanje • segmentacija na rečenice <s> • obilježavanje fizičke strukture teksta (naslov, podnaslov, odlomak itd.) • već smo vidjeli na prethodnim slajdovima (zelenom bojom)
HNK – sučelje za pretragu • Pretraživanje prema vrstama riječi (CQL= Corpus Query Language) • Npr. imenice
HNK – sučelje za pretragu • Rezultat bi trebale biti samo imenice
HNK – sučelje za pretragu • Spomenuli smo da je jedna od vrsta obilježavanja • gramatičko obilježavanje • vrste riječi (POS tagging) – imenice, glagoli, pridjevi … • ali i potpuno morfosintaktičko obilježavanje (MSD, Morphosyntactic description) • MSD = POS + (o|v)rbp (N) • Pitanje: kako znamo koje oznake koristiti? • MSD specifikacija (Multex-East V4): • http://nl.ijs.si/ME/V4/msd/html/msd-hr.html
HNK – sučelje za pretragu • Alat s pomoću kojega se obavlja automatsko • POS označavanje naziva se POS označivač (tagger) • lematiziranje naziva se lematizator • Treba imati na umu da se taj proces obavlja automatskom statističkom metodologijom → rez. nije 100 % • Ali je prilično (> 90 %) točan! • [msd="V.*"] – glagol • [msd="A.*"] – pridjev • itd.
HNK – sučelje za pretragu • Kako postaviti upit • pridjev iza kojega slijedi imenica? • [msd="A.*"][msd="N.*"] – pridjev za kojim slijedi imenica
HNK – sučelje za pretragu (VJEŽBA) • Kako postaviti upit • Imenica ispred koje MOŽE stajati pridjev? • [msd="A.*"]*[msd="N.*"] – RegEx
HNK – sučelje za pretragu (VJEŽBA) • Kako postaviti upit • pridjev iza kojega slijedi lema glava? • [msd="A.*"][lemma="glava"]
HNK – sučelje za pretragu (VJEŽBA) • Kako postaviti upit • lema glava ispred koje MOŽE stajati pridjev? • [msd="A.*"]*[lemma="glava"] • Kako postaviti upit • imenica ispred koje slijedi BAREM JEDAN pridjev? • [msd="A.*"][msd="A.*"]*[msd="N.*"] • Kako postaviti upit • Jednostavne prijedložne fraze (PP)? • [msd="S.*"][msd="A.*"]*[msd="N.*"]
HNK – sučelje za pretragu • Uporaba morfosintaktičkih oznaka kod pretrage MSD = POS + (o|v)rbp (N) • Ponovo pogledati MSD specifikaciju (Multex-East V4): http://nl.ijs.si/ME/V4/msd/html/msd-hr.html • Npr. prema specifikaciji Ncmsgznači • Imenica, opća, muškog roda, u jednini, u genitivu
HNK – sučelje za pretragu • Rezultat za upit • [msd="Ncmsg"]
HNK – sučelje za pretragu (VJEŽBA) • Kako postaviti upit • Opća imenica u nominativu? • [msd="Nc..n"] • Kako postaviti upit • Vlastita imenica ispred koje se nalazi lema pitati? • [lemma="pitati"][msd="Np.*"] • Što pronalazi upit • [lemma="tijek"][msd="A.*"][msd="N.*"] • Također moguće i • [lemma="tvrd"][lemma="orah"]
HNK – sučelje za pretragu • Pretraživanje pojavnica iz korpusa koje se nalaze u blizini (npr. kombinacija lema ili oblika) • Na standardan način unijeti prvu pojavnicu • Potrebno kliknuti na „Context” (na početku ekrana lijevo) • U tekstni okvir „Lemma(s):” unijeti drugu (treću…)? pojavnicu • Opcionalno „Query Type:” – ovisno pretražujemo li leme ili oblike riječi • Opcionalno „Window:”– ovisno želimo li definirati lijevi/desni/oba kontekst druge pojavnice i prozor u kojem se nalazi
HNK – sučelje za pretragu • Izgled:
HNK – kolokacije • Što su kolokacije? Zašto su važne? • Potrebno je nešto šire teorijsko objašnjenje • Vidjeti novu prezentaciju!
HNK – kolokacije • 1. Unos prve leme • 2. Klik na Make Concordance • 3. Klik na Filter • 4. Klik na Filter Concordance
HNK – kolokacije • 5. Klik na Collocations • 6. Postaviti atribut na lemma, T, MI • 7. Klik na Make Candidate List
HNK – kolokacije • 5. Klik na Collocations • 6. Postaviti atribut na lemma, T, MI • 7. Klik na Make Candidate List
HNK – kolokacije • Rezultati poredani prema uzajamnoj obavijesnosti (MI)
HNK – kolokacije • Ako nije odabran atribut lema nego Word