170 likes | 296 Views
Hrvatski jezičnotehnološki web -servisi?. Marko Tadi ć Sveučilište u Zagreb u Filozofski fakultet marko.tadic @ ffzg.hr CESAR Croatian Road Show Zagreb 201 2 -1 1 - 30. Povezivanje. Danas živimo u svijetu koji je sve više i više povezan. Mobilni uređaji. Mobilno računarstvo.
E N D
Hrvatski jezičnotehnološkiweb-servisi? Marko Tadić Sveučilište u ZagrebuFilozofski fakultet marko.tadic@ffzg.hr CESAR Croatian Road Show Zagreb 2012-11-30
Povezivanje Danas živimo u svijetu koji je sve više i više povezan...
Mobilno računarstvo Pred svega 30 godina... Rezultati obradbe pregledavali su se na kilometrima ispisa
Mobilno računarstvo Ovolika računalnasnaga nije biladostupna općojpopulaciji Međutim, danassvatko može imativiše računalnesnage i rezultatenjezine obradbeu svojim rukamaodmah i stalno
Mobilno računarstvo No, ipak u našimpametnimtelefonima nemožemo nositisve što nam treba, a ne možemo ihni rastegnutikako bi u njihstrpali više...
Računarstvo u oblaku Ono što nam treba je pristupna točka do oblaka...
Mobilno i računarstvo u oblaku • ne nosimo više sa sobom sve naše dokumente • još uvijek trebamo velike izvore agregiranih podataka • enciklopedije • (telefonske) imenike • rječnike • registre • ... ili usluge • on-line tražilice • uređivanje dokumenata • provjera pravopisa • strojno prevođenje • ...
Mobilno i računarstvo u oblaku • brzine povezivanja rastu • imamo pristupne točke u oblake s dovoljno lokalne procesne snage • ali još uvijek rabimo jezik • posvuda! • ne samo jedan jezik! • još uvijek trebamojezične resurse i alate • rječnike • provjernike pravopisa • strojeve za diktiranje • strojno prevođenje • ... ne samo u našim džepovima, nego i kao usluge tj. web-servise
On-line usluge • današnja mrežni-naraštaj uzima zdravo za gotovo • gsm, internet i društvene mreže • sve usluge koje su tamo dostupne • uključujući i nove usluge kojih se još nismo niti dosjetili • dostupnost svih informacija koje im trebaju kroz te on-line usluge • ako u svome vlastitome jeziku ne nađu ono što im treba, jednostavno to potraže u nekom drugom jeziku (najčešće engleskome) • to je prvi korak prema digitalnome izumiranju njihova materinskoga jezika • to je početakpotiranja europske i svjetske jezične raznolikosti u 21. stoljeću • jezični resursi i alati kao on-line usluge za “male” jezike osiguravaju • njihovo preživljenje (ne samo u digitalnome svijetu) • njihovu uporabu u budućnosti (osobito u digitalnome svijetu) • razvoj on-line jezičnih usluga košta jednako za “male” i “velike” jezike • industrija obično nalazi komercijalni interes samo kod “velikih” jezika • političari i zajednica moraju naći načina kako pomoći “malim” jezicima
Hrvatski jezični web-servisi • skup web-servisa za računalnu obradbu tekstova na hrvatskome jeziku • razdioba na rečenice (sentence splitting) • opojavničenje (tokenisation) • lematizacija (lemmatisation) • označavanje vrsta riječi i/li gramatičkih kategorija (POS/MSD-tagging) • prepoznavanje imena (Named Entity Recognition and Classification) • sintaktička analiza u skladu s ovisnosnom gramatikom hrvatskoga jezika (Dependency parsing) • ulaz • hrvatski tekst kodiran u skladu s UTF-8 kodnom shemom • #REST protokol • izlaz • obrađen vertikaliziran tekst ili tekst u XML-zapisu (TEI P5) • ovi su web-servisi uz registraciju dostupni na adresi http://lt.ffzg.hr • slobodna uporaba za istraživačke namjene (CC-BY-SA) • uz pretplatu za komercijalne potrebe
Hrvatski jezični web-servisi • demo • kome ovi web-servisi trebaju? • razdioba na rečenice • prevođenje: kad se želi napraviti baza prevedenih rečenica • lematizacija • obradba tekstovnih baza podataka stvaranjem indeksa lema umjesto različnica • indeks je manji, brže se pretražuje • intuitivno pretraživanje: dohvat riječi u svim oblicima • označavanje vrsta riječi i gramatičkih kategorija • leksikografija: npr. pronalaženje kolokacija kod kojih su kolokati sročni • prepoznavanje imena • crpljenje obavijesti: pronalaženje relevantnih obavijesti u tekstovima • prepoznavanje veza među imenima u tekstovima: socijalno obavještajstvo • sintaktička analiza (parsing) • razumijevanje teksta: prepoznavanje semantičkih uloga (agens, pacijens...) • analiza stavova (sentiment analysis): marketing, poslovno obavještajstvo, ...
Zaključci i perspektive • dajemo u javnu uporabu široko uporabive web-servise za hrvatski • razvijeni unutar projekta CESAR • istraživački tim s dvaju odsjeka Filozofskoga fakulteta Sveučilišta u Zagrebu • očekujemo razvoj novih web-servisa za • semantičko označavanje teksta: uporabom Hrvatskoga WordNeta (CroWN) • strojno prevođenje: uporabom platforme za izgradnju vlastitih strojnoprevoditeljskih sustava LetsMT! • očekujemo poticaj daljnjem razvoju jezičnih tehnologija u ostalim istraživačkim središtima u Hrvatskoj • jezične tehnologije za hrvatski jezik u Hrvatskoj moraju postati • jedan od strateških pravaca istraživanja u humanističkim i društvenim znanostima u novoj Strategiji razvoja obrazovanja, znanosti i tehnologije • nezaobilazno područje za koje će se pripremati projekti podupirani iz strukturnih fondova EU • sukladne svim nastojanjima oko jezičnih tehnologija u Obzoru2020 i CEF-u
Zaključci i perspektive • u društvu gdje... • podatci (i znanje pohranjeno u njima) postaju gorivo gospodarstva • povezanost postaje svakodnevna potreba • je višejezičnost pravilo a ne iznimka • teško ćemo živjeti takvo informacijsko društvo bez on-line jezičnih usluga • ne samo za svjetske jezike • već i za mnogo drugih, “malih” jezika
Pitanja... Zahvaljujem na pozornosti. http://www.cesar-project.net office@meta-net.eu http://www.cesar-project.net http://www.facebook.com/META.Alliance