220 likes | 413 Views
Zašto nam treba hrvatski WordNet?. Krešimir Šojat, Božo Bekavac, Marko Tadić (ksojat@ffzg.hr, bbekavac@ffzg.hr, mtadic@ffzg.hr) Filozofski fakultet Sveučilišta u Zagrebu Z avod za lingvistiku i Odsjek za lingvistiku HDPL , Split, 2004-05-15. Plan izlaganja. što je WordNet (WN)
E N D
Zašto nam treba hrvatski WordNet? Krešimir Šojat, Božo Bekavac, Marko Tadić(ksojat@ffzg.hr, bbekavac@ffzg.hr, mtadic@ffzg.hr) Filozofski fakultet Sveučilišta u ZagrebuZavod za lingvistiku i Odsjek za lingvistiku HDPL, Split, 2004-05-15
Plan izlaganja • što je WordNet (WN) • čemu služi i kako je nastao • osnovni pojmovi • višejezični wordneti • primjeri iz HrWN-a
Što je WordNet i čemu može služiti • računalno modelirana mreža semantičkih odnosa među riječima • računalni model leksikona (leksičke semantike) • koristan za sve oblike NLP-a u kojima se rabe leksičkosemantički podatci • leksikografija (WN = gotov tezaurus, dopuna postojećih rječnika) • korpusna lingvistika (WN = sredstvo za semantičko obilježavanje korpusa) • pretraživanje dokumenata (document retrieval), crpljenje informacija (information extraction), data mining • indeksiranje (document indexing) i sažimanje dokumenata (document summarization) • strojno razumijevanje poruka (message understanding) • strojno prevođenje (machine translation)
Kako je WordNet nastao • prvi WN: George A. Miller, Princeton • skupina psihologa, lingvista i informatičara • 1985. inicijalni sastanci • sastavljanje leksičke baze s kodiranim odnosima među riječima • polazna ideja • omogućiti pojmovno umjesto abecedno pretraživanje rječnika • dopuna konvencionalnim (digitalnim) rječnicima • razradom nastao WordNet (WN), 1990. započet projekt • = rječnik temeljen na psiholingvističkim zasadama • WN obuhvaća samo “semantički pune” engleske riječi • imenice, glagole, pridjeve, priloge • http://www.cogsci.princeton.edu/~wn/
WordNet – osnovne značajke • semantička mreža organizirana prema načelu sinonimije: natuknice strukturirane u skupove jednog ili više sinonima (synset) • značenje riječi opisano definicijom (glosom) i kontekstualnim primjerima uporabe • 2003. g: 140.000 riječi u cca. 100.000 sin-skupova (synset) • određena riječ može se nalaziti u nekoliko različitih sin-skupova (ako ima više značenja)
Osnovni pojmovi 1 • kodiranje odnosa među riječima = kodiranje njihovih značenja • leksička matrica • riječi O1 i O2 su sinonimiriječ O2 je višeznačna (polisemna)
Osnovni pojmovi 2 • semantički odnosi među riječima • sinonimija • antonimija • hipo- i hiperonimija • meronimija • sinonimija = najvažniji odnos • riječi u WN složene u sinonimske skupove, sin-skupove (synsets) • imenice u WN • nadređeni termin + razlikovna obilježja • hiponimija = mreža s hijerarhijskom topologijom
Osnovni pojmovi 3 • popis 25 vršnih polazišta za imenice • {čin, radnja} {prirodni objekt}{životinja, fauna} {prirodna pojava}{tvorevina, artefakt} {osoba, ljudsko biće}{atribut, svojstvo} {biljka, flora}{tijelo} {posjedovanje}{spoznaja, znanje} {proces}{komunikacija} {količina, iznos}{događaj, zbivanje} {odnos}{osjećaj, emocija} {oblik}{hrana} {stanje}{skup, skupina} {tvar}{mjesto, lokacija} {vrijeme}{motiv}
Osnovni pojmovi 3 • primjer hiponimskih odnosa između nekoliko polazišta za različite opipljive entitete • {entitet} • {organizam} {stvar, fiz. objekt} • {biljka} {čovjek} {prirodni objekt} {tvar} • {životinja} {tvorevina}
Ostali važni WN projekti • EuroWordNet I. i II. • 1996. g. i 1998. g. • višejezičnost: I: (brit.) eng, niz, špa, tal II: njem, fra, češ i est • BalkaNet • započeo: 2000. g. • grč, rum, bug, tur, srp (+ češ kao promatrač) • IndiaNet • kananda, tamilski... • SkandiNet • nor, šve, dan... • Global WordNet udruga
EuroWordNet • također načelo sinonimije odnosno sin-skupova • svaki sin-skup sadrži: • jedinstveni brojčani podatak (synset record number) • podatak o vrsti riječi članova • podatak o međusobnim semantičkim odnosima između pojedinih sin-skupova
EuroWordNet – osnovni pojmovi 1 • poveznice unutar pojedinih jezika, odnosno između sin-skupova (internal language records - ILR) • poveznice između pojedinih jezika u EuroWordNetu i interlingualnog indeksa (ILI) • poveznice između ILI-ja i vršne ontologije (top-ontology) i oznaka domena (domain labels)
EuroWordNet – osnovni pojmovi 2 • ILR (internal language records) – služe za označavanje međusobnih odnosa sin-skupova u nacionalnom wordnetu • ILI (interlingual index) – služi za povezivanje različitih jezika u EuroWN • nestrukturirani popis značenja iz WN 1.5. Svaki ILI zapis sastoji se od sinseta, glose i podatka o njegovom izvoru • Vršna ontologija (top-ontology) • hijerarhijska struktura jezično-nezavisnih koncepata (npr. OBJECT, LOCATION, DYNANIC) • podijeljena u entitete 1., 2. i 3. reda • 63 temeljne semantičke kategorije prema kojima je podijeljeno oko 1300 ILI-ja. Ti ILI zapisi predstavljaju skup temeljnih pojmova (base concepts) zajedničkih za sve jezike u EuroWN
EuroWordNet – osnovni pojmovi 3 • Ontologije vršnih sin-skupova (top synsets) izrađene su za svaki pojedini jezik i preko ILI-a povezane s vršnom ontologijom • Jezgra svakog wordneta u EuroWordNetu obavezno uključuje nacionalne ekvivalente temeljnih pojmova i minimalno sljedeće odnose • njihove hiperonime • njihove hiponime jedan stupanj niže • oznaku ekvivalencije s ostalim wordnetima
Zaključak i perspektive • početak 2004 • Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu • izrada skupa temeljnih pojmova • izrada oglednih sin-skupova • dodijeljivanje interlingualnog indeksa i povezivanje s vršnom ontologijom • uporaba hrvatskih rječnika • dobro bi došla proširena uporabivost 4. izd. Anića na CD-u • pretraživanje po desnoj strani rječnika • neformalna inicijativa za CEWN • poljski, madžarski, slovački, slovenski, hrvatski (+češki i njemački kao promatrači)