300 likes | 552 Views
Hrvatski nacionalni korpus. Marko Tadić (marko.tadic@ffzg.hr, hnk.ffzg.hr/mt) Odsjek za lingvistiku, Filozofski fakultet Sveučilište u Zagrebu (hnk.ffzg.hr) Sveu čilište u Grazu , 2006-04-04. Plan predavanja. Hrvatski nacionalni korpus (HNK) struktur a obilježavanje
E N D
Hrvatski nacionalni korpus Marko Tadić(marko.tadic@ffzg.hr, hnk.ffzg.hr/mt) Odsjek za lingvistiku, Filozofski fakultetSveučilište u Zagrebu (hnk.ffzg.hr) Sveučilište u Grazu, 2006-04-04
Plan predavanja • Hrvatski nacionalni korpus (HNK) • struktura • obilježavanje • dostupnost putem Interneta • Hrvatski morfološki leksikon (HML) • teorijska pozadina • primjena flektivnoga dijela leksikona • POS/MSD označavanje • sraz HNK-a i HML-a • POS/MSD označivač za hrvatski • Hrvatska ovisnosna banka stabala (HOBS) • Perspektive: novoprijavljeni projekti
Hrvatski nacionalni korpus (HNK) • projekti Ministarstva znanosti i tehnologije Republike Hrvatske • 130718, Računalna obradba hrvatskoga jezika, zapravo započeokrajem 1998. • 0130418, Razvitak hrvatskih jezičnih resursa, započeo 2002. • teorijske osnove za HNK još 1995., objavljene u 2 članka: • Tadić (1996) Računalna obradba hrvatskoga i nacionalni korpus, Suvremena lingvistika 41-42, 603-612 • Tadić (1998) Raspon, opseg i sastav korpusa suvremenoga hrvatskoga jezika, Filologija 30-31, 337-347 • iskazana potreba za hrvatskim referentnim sin- i dijakronijskim korpusom • dân je prijedlog za sastav korpusa • razrađen je opseg, vremenski raspon i njegova struktura • predložena je dostupnost putem WWW-a
30m30-milijunski korpus suvremenoga hrvatskoga jezika tekstovi od 1990. do danas različita područja i žanrovi reprezentativan za suvremeni hrvatski standard HETAHrvatski elektronički tekstovni arhiv tekstovi stariji od 1990. tekstovi čitavih serija publikacija / autora nakon 1990. koji bi poremetili ravnotežu i reprezentativnost 30m-a HNK v 1.0: Struktura
nema novijih istraživanja o produkciji / recepciji teksta u hrvatskom nema usustavljenih podataka o protoku teksta u društvu broj naslova koji se posuđuju u javnim knjižnicama broj tjedana koliko neki naslov ostaje na popisu uspješnica ukupna naklada novina, revija i časopisa ... kriteriji za odabir tekstova u korpus podatci iz komercijalnih marketinških istraživanja o recepciji novina i revija književna kritika o suvremenoj hrvatskoj prozi strukture ostalih velikih referentnih korpusa (BNC, CNC...) HNK v 1.0: 30m tipologija tekstova
HNK v 1.0: 30m tipologija tekstova 2 1. Informativni tekstovi74 22200000 1.1. novine 37 11100000 1.1.1. dnevnici 22 6600000 1.1.2. tjednici 9 2700000 1.1.3. dvotjednici 3 900000 1.1.4. sporadičnici 3 900000 1.2. magazini 16 4800000 1.2.1. tjednici 9 2700000 1.2.2. dvotjednici 1 300000 1.2.3. mjesečnici 3 900000 1.2.4. dvo-/tromjesečnici 3 900000 1.3. knjige 21 6300000 1.3.1. publicistika 4 1200000 1.3.2. vještine itd. 4 1200000 1.3.3. znanost 13 3900000 2. Imaginativni tekstovi (Fiction)23 6900000 2.1. proza 23 6900000 2.1.1. romani 13 3900000 2.1.2. pripovijetke 5 1500000 2.1.3. ogledi 4 1200000 2.1.4. dnevnici, putopisi... 1 300000 3. Miješani tekstovi 3 900000 3.1. imaginativno-faktografska djela 2 600000 3.3. govori 1 300000
HNK v 1.0: Prikupljanje tekstova • na početku je doneseno nekoliko tehničkih odluka • bez utipkavanja • bez optičkoga prepoznavanja pismena (OCR) • samo e-tekst • neki su tekstni tipovi / žanrovi lakše dobavljivi • nema problema s • novinama • književnošću • znanstvenim knjigama (društvene i humanističke znanosti) • ozbiljan nedostatak građe iz • prirodnih znanosti (kemija, fizika) • tehničkih znanosti • do sada skupljeno više od 200 Mw, ali nije uravnoteženo • problemi s autorskim pravima • pojedinačni sporazumi s nakladnicima
HNK v 1.0: Obilježavanje tekstova • XML • XCES (XML inačica CES-a = Corpus Encoding Standard) & XML TEI • Ide, Bonhomme & Romary (2000) • pridržavajte se standarda! za razmjenu: • podataka: vaš korpus može na isti način biti čitljiv negdje drugdje • aplikacija: različiti alati mogu se primijeniti na vaš korpus bez ikakve potrebe za prilagodbom / preoblikom podataka • XML = UNICODE kompatibilan (bez problema s kodnim stranicama) • obilježavanje • <DIV> 1. razina • <P> 1. razina • (<W> 2. razina) • detekcija rečeničnih granica <S> • problem: redni brojevi koji se u hrvatskome pišu s točkom,(npr. VII. ili 2002.) gdje točka može biti i kraj rečenice (28% su oboje!)
HNK v 1.0: Konverzija tekstova • formati ulaznih tekstova • WWW izvori: HTML, XML • DTP izvori: RTF, DOC, QXD, WP, TXT itd. • vlastiti software: 2XML • ulaz: HTML, RTF • izlaz: XML, bez zaglavlja • dvostupanjska konverzija s pomoću korisničkih skripata • omogućuje visoku razinu automatizacije (batch processing)
HNK v 1.0: korpusni format 1 <?xml version="1.0"?> <!DOCTYPE cesDoc PUBLIC "-//CES//DTD XML cesDoc//EN" "xcesDoc.dtd" [ ]> <cesDoc version="3.19"> <cesHeader type="text" version="3.19"> <fileDesc> <titleStmt> <h.title>Electronic version of Vecernji list, vl990311</h.title> <respStmt> <respType>XCES markup prepared by</respType> <respName>Bosko Bekavac</respName> </respStmt> </titleStmt> <extent> <wordCount>4456</wordCount> <byteCount>25385</byteCount> </extent> <publicationStmt> <distributor>Project MZT RH 130718</distributor> <pubAddress>Institute of linguistics</pubAddress> <telephone>+385 1 6120-142</telephone> <fax>+385 1 6856-118</fax> <eAddress>http://www.ffzg.hr/zzl/zzl-home.htm</eAddress> <idno>76676665676</idno> <availability status="free"> </availability> <pubDate>1999-12-20</pubDate> </publicationStmt> <sourceDesc> <biblStruct> <monogr> <h.title>Vecernji list</h.title> <h.author></h.author> <imprint> <pubPlace>Zagreb</pubPlace> <publisher>Vecernji list</publisher> <pubDate>1999-03-11</pubDate> </imprint> </monogr> </biblStruct> </sourceDesc> </fileDesc> <encodingDesc> <projectDesc>Croatian National Corpus is being collected in the Institute of linguistics, Faculty of Philosophy, University of Zagreb in the frame of the project "Computer processing of Croatian language" granted by the Ministry of Science and Technology of Republic of Croatia under No. 130718</projectDesc> </encodingDesc> <profileDesc> <langUsage> <language id="hr" iso639="hr">Croatian</language> </langUsage> <textClass> <catRef target="xxxxx"></catRef> <h.keywords> <keyTerm>Newspaper</keyTerm> </h.keywords> </textClass> </profileDesc> </cesHeader> >
HNK v 1.0: korpusni format 2 <BODY> <DIV0 type="article"> <HEAD type="nn">U GORICI SVETOJANSKOJ ODRŽAN 12. FESTIVAL PJEVAČA AMATERA</HEAD> <HEAD type="na">Ivana osvojila županijski Sanremo</HEAD> <HEAD type="pn">* Od 20 natjecatelja žiri je najboljom proglasio Ivanu Erdeljac s pjesmom "Crazy", druga je Antonija Mikita s pjesmom "To", a treće je mjesto osvojila Ksenija Cvetetić</HEAD> <FIGURE>Publici su se najviše svidjeli Marija Šalić i Petar Puhijera</FIGURE> <P>Pod medijskim pokroviteljstvom "Večernjeg lista" i Radio Jaske, a uz pomoć DIR "Rubinić" kao generalnog te još sedamdesetak drugih sponzora, u petak i u subotu u Gorici Svetojanskoj pokraj Jastrebarskog održan je 12. festival pjevača amatera.</P> <P>Prve festivalske večeri, na kojoj su nastupila 22 izvođača do 15 godina, prvu nagradu stručnog žirija odnijela je Petra Batelja iz Rastoka pokraj Jaske za pjesmu "To malo ljubavi". Druga nagrada pripala je Nikolini Oslaković iz Gornje Reke za pjesmu "Neka mi ne svane", a treća Mariji Jurini iz Desinca za pjesmu "Ginem". Publika je najboljom ocijenila svetojansku grupu "Mrvice" s pjesmom "Mrvica", dok je drugu nagradu dodijelila Natali Rajnović iz Jaske za pjesmu "Don"t ever cry", a treću Aniti Oslaković iz Desinca za pjesmu "Malo fali". Za najboljeg debitanta prve večeri proglašena je Irena Kišan iz Zdenčine s pjesmom "Izdali me".</P> <P>Druga večer - s dvadeset starijih izvođača iz Jaske, Karlovca, Bjelovara, Zagreba i Velike Gorice - bila je osobito napeta, jer je za razliku od lani ponudila vrlo kvalitetne izvođače i interpretacije pa nije bilo lako odabrati najbolje.</P> <P>Nakon poduže stanke tijekom koje su izbrojani glasovi - a koju su publici kratili gost večeri Ivo Pattiera te sastav "Santa Anna" i solistica Goga Čopić - proglašeni su ovogodišnji pobjednici. Prema ocjeni stručnog žirija, prvu nagradu i zlatnu plaketu "Večernjaka" dobila je Karlovčanka Ivana Erdeljac za vrlo dobro otpjevanu pjesmu "Crazy". Druga nagrada pripala je Antoniji Mikiti iz Velike Gorice za pjesmu "To", a treća Kseniji Cvetetić iz Petrovine za pjesmu "Neka mi ne svane".</P> <P>Publika je najviše glasova dodijelila svetojansko-zagrebačkom duetu Mariji Šalić i Petru Puhijeri za interpretaciju pjesme "Ima li nade za nas", pa je i njima pripala "Večernjakova" zlatna plaketa. Na drugo mjesto publika je svrstala "Svetojanske tamburaše" koji su nastupili s pjesmom "Dobro jutro", a na treće Zagrepčanku Marijanu Parilac i pjesmu "Idi i ne budi ljude".</P> <P>Najboljom debitanticom završne večeri proglašena je Zagrepčanka Marina Posilović s pjesmom "Piši, piši mi", a nagradu za najbolji scenski nastup dobio je sastav iz Petrovine "Prigorje de lajt" s pjesmom "Oj suseda, suseda". Čini se da su ovogodišnje nagrade - a bilo ih je doista mnogo, od sedmodnevnog boravka u Opatiji, umjetničke slike, bicikla i kazetofona do satova i poklon-bonova - završile u pravim rukama. Oni koji ih nisu dobili, a možda su ih također zaslužili, neka se ovaj put utješe pljeskom publike, a dogodine će imati novu priliku. Jer, tradicija Svetojanskog festivala - svojevrsnog Sanrema zagrebačke županije - nastavlja se.</P> <BYLINE>N. Godrijan-Videc</BYLINE> </DIV0> </BODY>
HNK v 1.0: korpusni format 3 <BODY> vl990301gr01 1 X <DIV0 type="article"> vl990301gr01 7 X <HEAD type="nn"> vl990301gr01 28 X U vl990301gr01 44 R GORICI vl990301gr01 46 R SVETOJANSKOJ vl990301gr01 53 R ODRŽAN vl990301gr01 66 R 12 vl990301gr01 78 B . vl990301gr01 80 I FESTIVAL vl990301gr01 82 R PJEVAČA vl990301gr01 91 R AMATERA vl990301gr01 104 R </HEAD> vl990301gr01 111 X <HEAD type="na"> vl990301gr01 118 X Ivana vl990301gr01 134 R osvojila vl990301gr01 140 R županijski vl990301gr01 149 R Sanremo vl990301gr01 165 R </HEAD> vl990301gr01 172 X <HEAD type="pn"> vl990301gr01 179 X * vl990301gr01 195 I Od vl990301gr01 197 R 20 vl990301gr01 200 B natjecatelja vl990301gr01 203 R žiri vl990301gr01 216 R je vl990301gr01 226 R najboljom vl990301gr01 229 R proglasio vl990301gr01 239 R Ivanu vl990301gr01 249 R Erdeljac vl990301gr01 255 R s vl990301gr01 264 R pjesmom vl990301gr01 266 R " vl990301gr01 275 I Crazy vl990301gr01 276 R " vl990301gr01 281 I , vl990301gr01 282 I druga vl990301gr01 284 R je vl990301gr01 290 R Antonija vl990301gr01 293 R Mikita vl990301gr01 302 R s vl990301gr01 309 R pjesmom vl990301gr01 311 R • opojavničenje (tokenization) • TOKENIZER: vlastitisoftware • ulaz: XML • izlaz 1: tab-datoteka kaoulaz u bazu podataka(vertikalizirani korpus) • izlaz 2: opojavničeni XML
HNK v 1.0: korpusni format 4 • izlaz 2: opojavničeni XML <W type="R">medijskim</W> <W type="R">pokroviteljstvom</W> <W type="I">"</W> <W type="R">Večernjeg</W> <W type="R">lista</W> <W type="I">"</W> <W type="R">i</W> <W type="R">Radio</W> <W type="R">Jaske</W> <W type="I">,</W> <W type="R">a</W> <W type="R">uz</W> <W type="R">pomoć</W> <W type="R">DIR</W> <W type="I">"</W> <W type="R">Rubinić</W> <W type="I">"</W> <W type="R">kao</W> <W type="R">generalnog</W> <W type="R">te</W> <W type="R">još</W> <W type="R">sedamdesetak</W> <W type="R">drugih</W> <W type="R">sponzora</W> <W type="I">,</W> <W type="R">u</W> <W type="R">petak</W> <W type="R">i</W> <W type="R">u</W> <W type="R">subotu</W> <W type="R">u</W> <W type="R">Gorici</W> <W type="R">Svetojanskoj</W> <W type="R">pokraj</W> <W type="I">"</W> <W type="I">,</W> <W type="R">druga</W> <W type="R">je</W> <W type="R">Antonija</W> <W type="R">Mikita</W> <W type="R">s</W> <W type="R">pjesmom</W> <W type="I">"</W> <W type="R">To</W> <W type="I">"</W> <W type="I">,</W> <W type="R">a</W> <W type="R">treće</W> <W type="R">je</W> <W type="R">mjesto</W> <W type="R">osvojila</W> <W type="R">Ksenija</W> <W type="R">Cvetetić</W> </HEAD> <FIGURE> <W type="R">Publici</W> <W type="R">su</W> <W type="R">se</W> <W type="R">najviše</W> <W type="R">svidjeli</W> <W type="R">Marija</W> <W type="R">Šalić</W> <W type="R">i</W> <W type="R">Petar</W> <W type="R">Puhijera</W> </FIGURE> <P> <W type="R">Pod</W> <BODY> <DIV0 type="article"> <HEAD type="nn"> <W type="R">U</W> <W type="R">GORICI</W> <W type="R">SVETOJANSKOJ</W> <W type="R">ODRŽAN</W> <W type="B">12</W> <W type="I">.</W> <W type="R">FESTIVAL</W> <W type="R">PJEVAČA</W> <W type="R">AMATERA</W> </HEAD> <HEAD type="na"> <W type="R">Ivana</W> <W type="R">osvojila</W> <W type="R">županijski</W> <W type="R">Sanremo</W> </HEAD> <HEAD type="pn"> <W type="I">*</W> <W type="R">Od</W> <W type="B">20</W> <W type="R">natjecatelja</W> <W type="R">žiri</W> <W type="R">je</W> <W type="R">najboljom</W> <W type="R">proglasio</W> <W type="R">Ivanu</W> <W type="R">Erdeljac</W> <W type="R">s</W> <W type="R">pjesmom</W> <W type="I">"</W> <W type="R">Crazy</W>
HNK v 1.0: korpus na www-uhttp://hnk.ffzg.hr • probna inačica V 1.0: 1998-12-05 • 30m: 3 Mw • probna inačica V 1.1: 1999-02-14 & 1999-07-20 • 30m: 7,67 Mw • HETA: 2,9 Mw s CD-ROM-a: Klasici hrvatske književnosti, Naklada Bulaja, Zagreb, 1999. • probna inačica V 1.2 (oko 10 Mw): 2001-10 • tekst format: quasi-HTML, bez XML-a • probna inačica V 1.3 (oko 17 Mw): 2002-06 • tehničke pojedinosti • WinNT platforma • MS-SQL server 6.5 s ASP/ODBC i vlastitim sučeljem za pretraživanje • jednostavni jedno-rječni upiti bez redanja i bez POS / MSD podataka • konkordancije i čestota
HNK v 2.0: korpus na www-uhttp://hnk.ffzg.hr • nova inačica v2.0ß: 2004-12-20 • napušta se razdioba na 30m i HETA-u • korpus 3. generacije (John Sinclair: “The bigger, the better”) • >46 Mw • inačica v2.0: 2005-12-18 • 101,2 Mw • tehničke pojedinosti • nova platforma (Linux), sustav Pavela Rychlýa: http://www.textforge.cz • poslužitelj (“korpusový manažer”): Manatee • korisnički klijent: Bonito • znatno razrađenije i pristupačnije sučelje • konkordancije (više riječi, regularni izrazi, strukturne oznake itd.) • statistički podatci • pronalaženje kolokacija • upiti po lemama, MSD-ovima •
POS/MSD označavanje HNK • POS / MSD podatci u korpusu znatno mu pospješuju uporabivost • hrvatski (poput bilo kojeg drugoga slavenskoga jezika) • flektivno bogat jezik • imenice: 7 padeža, 2 broja, 3 roda • pridjevi: + 2 lika (određeni i neodređeni), 3 stupnja u komparaciji • prilozi: 3 stupnja u komparaciji • zamjenice: 7 padeža, 2 broja, 3 roda, 3 lica • brojevi: 7 padeža, 3 roda(, 2 broja) • glagoli: • 2 broja, 3 lica • 3 jednostavna, 3 analitička vremena (s 3 roda i 2 broja u glagolskim pridjevima) • 2 dodatna participa (glagolski prilozi) • 2 kondicionala • imperativ • iznimno složen sustav glagolskoga vida (svršeni i nesvršeni/ iterativni) • većina je sintaktičkih odnosa u rečenici kodirana fleksijom • POS/MSD označavanje/lematizacija značajno pomaže sintaktičkoj analizi
Hrvatski morfološki leksikon (HML) • model hrvatskoga morfološkoga sustava • sve kombinacije morfema u skladu s morfotaktičkim pravilima hrvatskoga na 2 razine • derivacija/kompozicija • fleksija • ostvarive generiranjem • osnova riječi • oblika riječi • pohranjenih u bazu podataka za daljnju primjenu • leksikon osnova riječi • leksikon oblika riječi • i-projekt 2002-100 Ministarstva znanosti i tehnologije Republike Hrvatske • jednogodišnji projekt usmjeren na primjenu IT u znanosti
Leksikon oblika • flektivni model hrvatskoga tj. flektivni dio HML-a već je ostvaren • već postoje preporuke za flektivne oznake • MULTEXT East projekt (1995-1997): 6 CEE jezika • MULTEXT East v 3.0, http://nl.ijs.si/ME/V3 • hrvatska specifikacija dodana još 1998. • Hrvatski flektivni generator: GenOblik (Tadić 1994) • klasifikacijski utemeljen flektivni model • 613 flektivnih uzoraka • 404 imeničnih • 42 pridjevskih • 12 komparacijskih • 155 glagolskih • jednostavan model, poštuje jezične jedinice, nije računalno optimiziran • nastavci i alomorfske preoblike osnova upravljane su flektivnim uzorkom
Leksikon oblika 2: generiranje • generator uzimlje 3 ulazna popisa • lema s osnovama (leksikon) • nastavaka • preoblika • leksikon lema osnova flektivni uzorak deklinacija bacati bac 0/501/0 baciti bac 0/511/0 bagatelizirati bagatelizir 0/501,502/0 bagerirati bagerir 0/501,502/0 bajati baj 0/501/0 baktati bakt 0/501/0 balansirati balansir 0/501/0 balegati baleg 0/501/0 baliti bal 0/509,510/0 balzamirati balzamir 0/501,502/0 baljezgati baljezg 0/501/0 konjugacija komparacija
HML v 1.0 • natuknički popis iz Rječnika hrvatskoga jezika (Anić 11991) • oko 36,000 natuknica • 18,019 imenica • 7,735 glagola • 5,504 pridjeva • 6,517 priloga • ... • ručno označeni pripadajućim im brojem flektivnoga uzorka • generirano lema oblika imenice 12,076 171,380 glagoli 7,735 232,276 pridjevi 5,504 1,207,786 prilozi 6,617 11,706
= abdikacija Ncfpg abdikacija abdikacija Ncfsn abdikacijama abdikacija Ncfpd abdikacijama abdikacija Ncfpi abdikacijama abdikacija Ncfpl abdikacije abdikacija Ncfpa abdikacije abdikacija Ncfpn abdikacije abdikacija Ncfpv abdikacije abdikacija Ncfsg abdikaciji abdikacija Ncfsd abdikaciji abdikacija Ncfsl abdikacijo abdikacija Ncfsv abdikacijom abdikacija Ncfsi abdikaciju abdikacija Ncfsa = abeceda Ncfsn abecede abeceda Ncfsg abecedi abeceda Ncfsd abecedu abeceda Ncfsa abecedo abeceda Ncfsv abecedi abeceda Ncfsl abecedom abeceda Ncfsi abecede abeceda Ncfpn abeceda abeceda Ncfpg abecedama abeceda Ncfpd abecede abeceda Ncfpa abecede abeceda Ncfpv abecedama abeceda Ncfpl abecedama abeceda Ncfpi = abolicija Ncfsn abolicije abolicija Ncfsg aboliciji abolicija Ncfsd aboliciju abolicija Ncfsa abolicijo abolicija Ncfsv aboliciji abolicija Ncfsl abolicijom abolicija Ncfsi abolicije abolicija Ncfpn abolicija abolicija Ncfpg abolicijama abolicija Ncfpd abolicije abolicija Ncfpa abolicije abolicija Ncfpv abolicijama abolicija Ncfpl abolicijama abolicija Ncfpi = abrazija Ncfsn abrazija abrazija Ncfpg abrazijama abrazija Ncfpd abrazijama abrazija Ncfpi abrazijama abrazija Ncfpl abrazije abrazija Ncfpa abrazije abrazija Ncfpn abrazije abrazija Ncfpv abrazije abrazija Ncfsg abraziji abrazija Ncfsd abraziji abrazija Ncfsl abrazijo abrazija Ncfsv abrazijom abrazija Ncfsi abraziju abrazija Ncfsa HML v 1.0
Hrvatski lematizacijski poslužitelj • HML v 2.0 tj. leksikon oblika pohranjen je u bazu podataka • slobodno pretraživ na http://hml.ffzg.hr • korisničko ime: proba; zaporka: proba • oko 45.000 lema općega jezika • oko 15.000 osobnih muških i ženskih imena • oko 50.000 prezimena registriranih u RH • preko 3.500.000 generiranih oblika riječi • mogućnost pokretranja pretrage preko Googlea s upitom koji obuhvaća sve oblike hrvatskih riječi •
POS / MSD označavanje HNK • ostvareni koraci • stvaranje potkorpusa HNK od barem 100.000 riječi (CW2000) • sraz CW2000 s HML-om • dobivanje svih mogućih MSD/lema interpretacija na unigramskoj razini (kotekst se ne uzimlje u obzir) • (polu-)ručno razobličavanje (disambiguation) MSD označen i lematiziran CW2000: pretraživ s pomoću Bonita po lemama iMSD-ovima • uporaba razobličenoga CW2000 korpusa kao trening korpusa za označivač (tagger) TnT • vrjednovanje označavanja (Agić & Tadić, LREC2006) • označavanje HNK treniranim označivačem
Označavanje HNK • sraz na unigramskoj razini • dobivanje “homografske težine” svake pojavnice i različnice • homografija izrazito visoka
Označavanje HNK • HML se popunjava s novim natuknicama • postupak automatskoga proširivanja HML-a (Oliver & Tadić, LREC2004) • metode automatskoga učenja paradigmi • provjeren od prije na ruskome • primjena na hrvatskome • preliminarni rezultati dali ohrabrujuće rezultate
Označavanje HNK: razobličenje • uporaba lokalnih gramatika (regularnih gramatika) za razobličenje u stanovitim vrstama konstrukcija • nazivi, brojčani izrazi, izrazi za mjere • vremenski iprostorni izrazi • prijedložni izrazi: ((u)P ((bližem)Adj (gradu)N)NP)PP (Bekavac, 2006) • Intex i Unitex sustavi: regularne gramatike, transduktori • statistika POS / MSD kolokacijskih uzoraka • u pilot-korpusu AN 40935 NN 21931 NAN 10033 AAN 5172ANN 5021
Označavanje HNK: treniranje označivača • TNT označivač (Brants 2000), trigramski statistički označivač • dobro se nosi s velikih skupovima oznaka • očekivana veličina = preko 2000 oznaka • korišten u eksperimentima za slovenski (Džeroski i dr. 2000) • moguć redizajn skupa oznaka: dvo-stupanjsko označavanje (?) • 1. stupanj: skup oznaka sa širim kategorijama (samo vrsta riječi) • 2. stupanj: finiji skup oznaka • npr. hrvatski pasivni participi • dio glagolske paradigme • Rukavice su bile bačene na stol. • adjektivizirani participi dijelovi pridjevske paradigme • Bačene rukavice ležale su na stolu. • visoka čestota mnogo “ručnog” razrješavanja homografa • rješenje: uvođenje međukategorije (npr. participa) i prepuštanje razrješenja homografa na sljedećoj razini obradbe
Sintaktičko označavanje HNK: HOBS • izgradnja Hrvatske ovisnosne banke stabala (HOBS) • preuzeta metodologija iz Praške ovisnosne banke stabala (PDT) • 1. označavanje analitičkoga sloja • 2. označavanje tektogramatičkoga sloja • ručno označavanje ovisnosnih sintaktičkih funkcija • korpus: CW2000 • alat: TrEd (Tree editor) Petra Pajasa (PDT) • na hnk.ffzg.hr/hobs • opis banke • primjeri >50 rečenica •
Perspektive • HNK • daljnje povećanje na 200 Mw do 2010. • uključivanje POS / MSD podataka u korpus (bez razobličenja već 2006.) • HML • proširiti leksikon oblika novim lemama • dovršiti model leksikona osnova i generirati osnove (dugoročan plan) • POS / MSD označavanje HNK • razvitak lokalnih gramatika i njihova primjena u razrješenju homografa • treniranje označivača na ostalim vrstama tekstova • MZOŠ-u u ožujku prijavljen program Računalnolingvistički modeli i jezične tehnologije za hrvatski jezik s 5 projekata • Hrvatski jezični resursi i njihovo označavanje • Hrvatska računalna sintaksa • Leksička semantika u izgradnji hrvatskoga WordNeta • Informacijska tehnologija u prevođenju hrvatskoga i učenju jezika • Otkrivanje znanja u hrvatskim dokumentima
Hrvatski nacionalni korpus Marko Tadić(marko.tadic@ffzg.hr, hnk.ffzg.hr/mt) Odsjek za lingvistiku, Filozofski fakultetSveučilište u Zagrebu (hnk.ffzg.hr) Sveučilište u Grazu, 2006-04-04