1 / 21

Zašto nam treba hrvatski WordNet?

Zašto nam treba hrvatski WordNet?. Krešimir Šojat, Božo Bekavac, Marko Tadić (ksojat@ffzg.hr, bbekavac@ffzg.hr, mtadic@ffzg.hr) Filozofski fakultet Sveučilišta u Zagrebu Z avod za lingvistiku i Odsjek za lingvistiku HDPL , Split, 2004-05-15. Plan izlaganja. što je WordNet (WN)

bowie
Download Presentation

Zašto nam treba hrvatski WordNet?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zašto nam treba hrvatski WordNet? Krešimir Šojat, Božo Bekavac, Marko Tadić(ksojat@ffzg.hr, bbekavac@ffzg.hr, mtadic@ffzg.hr) Filozofski fakultet Sveučilišta u ZagrebuZavod za lingvistiku i Odsjek za lingvistiku HDPL, Split, 2004-05-15

  2. Plan izlaganja • što je WordNet (WN) • čemu služi i kako je nastao • osnovni pojmovi • višejezični wordneti • primjeri iz HrWN-a

  3. Što je WordNet i čemu može služiti • računalno modelirana mreža semantičkih odnosa među riječima • računalni model leksikona (leksičke semantike) • koristan za sve oblike NLP-a u kojima se rabe leksičkosemantički podatci • leksikografija (WN = gotov tezaurus, dopuna postojećih rječnika) • korpusna lingvistika (WN = sredstvo za semantičko obilježavanje korpusa) • pretraživanje dokumenata (document retrieval), crpljenje informacija (information extraction), data mining • indeksiranje (document indexing) i sažimanje dokumenata (document summarization) • strojno razumijevanje poruka (message understanding) • strojno prevođenje (machine translation)

  4. Mrežno modelirani semantički odnosi

  5. Kako je WordNet nastao • prvi WN: George A. Miller, Princeton • skupina psihologa, lingvista i informatičara • 1985. inicijalni sastanci • sastavljanje leksičke baze s kodiranim odnosima među riječima • polazna ideja • omogućiti pojmovno umjesto abecedno pretraživanje rječnika • dopuna konvencionalnim (digitalnim) rječnicima • razradom nastao WordNet (WN), 1990. započet projekt • = rječnik temeljen na psiholingvističkim zasadama • WN obuhvaća samo “semantički pune” engleske riječi • imenice, glagole, pridjeve, priloge • http://www.cogsci.princeton.edu/~wn/

  6. WordNet – osnovne značajke • semantička mreža organizirana prema načelu sinonimije: natuknice strukturirane u skupove jednog ili više sinonima (synset) • značenje riječi opisano definicijom (glosom) i kontekstualnim primjerima uporabe • 2003. g: 140.000 riječi u cca. 100.000 sin-skupova (synset) • određena riječ može se nalaziti u nekoliko različitih sin-skupova (ako ima više značenja)

  7. Osnovni pojmovi 1 • kodiranje odnosa među riječima = kodiranje njihovih značenja • leksička matrica • riječi O1 i O2 su sinonimiriječ O2 je višeznačna (polisemna)

  8. Osnovni pojmovi 2 • semantički odnosi među riječima • sinonimija • antonimija • hipo- i hiperonimija • meronimija • sinonimija = najvažniji odnos • riječi u WN složene u sinonimske skupove, sin-skupove (synsets) • imenice u WN • nadređeni termin + razlikovna obilježja • hiponimija = mreža s hijerarhijskom topologijom

  9. Primjer semantičkih odnosa

  10. Osnovni pojmovi 3 • popis 25 vršnih polazišta za imenice • {čin, radnja} {prirodni objekt}{životinja, fauna} {prirodna pojava}{tvorevina, artefakt} {osoba, ljudsko biće}{atribut, svojstvo} {biljka, flora}{tijelo} {posjedovanje}{spoznaja, znanje} {proces}{komunikacija} {količina, iznos}{događaj, zbivanje} {odnos}{osjećaj, emocija} {oblik}{hrana} {stanje}{skup, skupina} {tvar}{mjesto, lokacija} {vrijeme}{motiv}

  11. Osnovni pojmovi 3 • primjer hiponimskih odnosa između nekoliko polazišta za različite opipljive entitete • {entitet} • {organizam} {stvar, fiz. objekt} • {biljka} {čovjek} {prirodni objekt} {tvar} • {životinja} {tvorevina}

  12. Ostali važni WN projekti • EuroWordNet I. i II. • 1996. g. i 1998. g. • višejezičnost: I: (brit.) eng, niz, špa, tal II: njem, fra, češ i est • BalkaNet • započeo: 2000. g. • grč, rum, bug, tur, srp (+ češ kao promatrač) • IndiaNet • kananda, tamilski... • SkandiNet • nor, šve, dan... • Global WordNet udruga

  13. EuroWordNet • također načelo sinonimije odnosno sin-skupova • svaki sin-skup sadrži: • jedinstveni brojčani podatak (synset record number) • podatak o vrsti riječi članova • podatak o međusobnim semantičkim odnosima između pojedinih sin-skupova

  14. EuroWordNet – osnovni pojmovi 1 • poveznice unutar pojedinih jezika, odnosno između sin-skupova (internal language records - ILR) • poveznice između pojedinih jezika u EuroWordNetu i interlingualnog indeksa (ILI) • poveznice između ILI-ja i vršne ontologije (top-ontology) i oznaka domena (domain labels)

  15. EuroWordNet – osnovni pojmovi 2 • ILR (internal language records) – služe za označavanje međusobnih odnosa sin-skupova u nacionalnom wordnetu • ILI (interlingual index) – služi za povezivanje različitih jezika u EuroWN • nestrukturirani popis značenja iz WN 1.5. Svaki ILI zapis sastoji se od sinseta, glose i podatka o njegovom izvoru • Vršna ontologija (top-ontology) • hijerarhijska struktura jezično-nezavisnih koncepata (npr. OBJECT, LOCATION, DYNANIC) • podijeljena u entitete 1., 2. i 3. reda • 63 temeljne semantičke kategorije prema kojima je podijeljeno oko 1300 ILI-ja. Ti ILI zapisi predstavljaju skup temeljnih pojmova (base concepts) zajedničkih za sve jezike u EuroWN

  16. EuroWordNet – osnovni pojmovi 3 • Ontologije vršnih sin-skupova (top synsets) izrađene su za svaki pojedini jezik i preko ILI-a povezane s vršnom ontologijom • Jezgra svakog wordneta u EuroWordNetu obavezno uključuje nacionalne ekvivalente temeljnih pojmova i minimalno sljedeće odnose • njihove hiperonime • njihove hiponime jedan stupanj niže • oznaku ekvivalencije s ostalim wordnetima

  17. EuroWordNet – osnovni pojmovi 4

  18. Primjeri iz HrWN-a

  19. Primjeri iz HrWN-a

  20. Primjeri iz HrWN-a • #

  21. Zaključak i perspektive • početak 2004 • Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu • izrada skupa temeljnih pojmova • izrada oglednih sin-skupova • dodijeljivanje interlingualnog indeksa i povezivanje s vršnom ontologijom • uporaba hrvatskih rječnika • dobro bi došla proširena uporabivost 4. izd. Anića na CD-u • pretraživanje po desnoj strani rječnika • neformalna inicijativa za CEWN • poljski, madžarski, slovački, slovenski, hrvatski (+češki i njemački kao promatrači)

More Related