1 / 44

AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS

AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS. Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala Laboratorija za akustiku i govorne tehnologije. Jezičke tehnologije. Automatsko prevođenje teksta Automatsko rezimiranje teksta

morey
Download Presentation

AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS Milan SečujskiFakultet tehničkih nauka, Novi SadKatedra za telekomunikacije i obradu signalaLaboratorija za akustiku i govorne tehnologije GRAZ 2007

  2. Jezičke tehnologije • Automatsko prevođenje teksta • Automatsko rezimiranje teksta • Automatsko nalaženje informacije u tekstu • Optičko prepoznavanje pisanog teksta • Automatsko vođenje dijaloga • Sinteza govora na osnovu teksta • Prepoznavanje govora GRAZ 2007

  3. Problemi jezičkih tehnologija • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007

  4. Problemi jezičkih tehnologija • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007

  5. Problemi jezičkih tehnologija • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika DANAS JE LEPO VREMEDA NAS JE LEPO VREMEDANAS JELE PO VREMEDA NAS JELE PO VREME GRAZ 2007

  6. Problemi jezičkih tehnologija • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika Ovaj kurs trajaće mesec dana.Mesec je blistao na nebu. GRAZ 2007

  7. Problemi jezičkih tehnologija Kupili su francuski sir i konjak. Dali su joj da pojede bananu jer je bila gladna.Dali su joj da pojede bananu jer je bila prezrela. • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007

  8. Problemi jezičkih tehnologija Jeli primio platu? • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007

  9. Problemi jezičkih tehnologija Možeš li mi dodati so? Koliko ste automobila prodali u februaru? Pod je klizav.Pod je klizav! • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007

  10. Može li računar da razmišlja kao čovek? GRAZ 2007

  11. Model prirodnog jezika • Opisati prirodni jezik na matematički način, razumljiv računaru • Kako bi ta pravila trebalo da izgledaju? • Kako se može doći do tih pravila? • Opisati jezik nije isto što i naučiti koristiti ga! • Ovim problemom bavi se računarska lingvistika GRAZ 2007

  12. Statistička obrada prirodnog jezika • Podoblast veštačke inteligencije i lingvistike • Potrebna je vrlo velika količina tekstualnog (ili govornog) materijala za analizu • Rečnici • Tezaurusi • Tekstualni korpusi • Potrebni su algoritmi za stohastičku analizu • Deterministički algoritmi, pogotovo kod dužih rečenica, vrlo često ne daju jedinstveno rešenje. GRAZ 2007

  13. Statistička obrada prirodnog jezika • Podoblast veštačke inteligencije i lingvistike • Potrebna je vrlo velika količina tekstualnog (ili govornog) materijala za analizu • Rečnici • Tezaurusi • Tekstualni korpusi • Potrebni su algoritmi za stohastičku analizu • Deterministički algoritmi, pogotovo kod dužih rečenica, vrlo često ne daju jedinstveno rešenje. TIME FLIES LIKE AN ARROW GRAZ 2007

  14. AlfaNum Rečnik • Spisak reči sa podacima o vrednostima morfoloških kategorija, čitljiv od straneračunara LC Star GRAZ 2007

  15. Rad na rečniku GRAZ 2007

  16. ? Pored svoje izdavačke delatnosti,Narodna knjiga počinje sa distribucijom stručneliterature na engle-skom jeziku iz različitih oblasti. Korpus • Anotiran ili neanotiran • U tekstu se reči javljaju u svim svojim pojavnim oblicima • Kako razrešiti dvosmislenost? • Na osnovu učestanosti vrste reči / vrednosti morf. kategorija • Na osnovu učestanosti reči • Na osnovu konteksta GRAZ 2007

  17. Korpus Korpus srpskog jezika (CSL) GRAZ 2007

  18. AlfaNum MULTEXT East Korpus GRAZ 2007

  19. Morfološka anotacija korpusa • Ručno ili automatski • U oba slučaja podložno greškama • Morfološki deskriptori (tagovi) • Šta će se obeležavati – stvar je dogovora • Od toga šta će se obeležavati zavisi: • tačnost anotacije – ručne ili automatske • upotrebljivost dobijenog korpusa • Npr. ako je urađena lematizacija, dobijeni korpus može biti koristan u leksikografiji GRAZ 2007

  20. Tačnost automatske anotacije • Podatak koji uvek treba uzeti sa rezervom • Treba reći koliko ima različitih tagova u usvojenom sistemu i šta se tačno obeležava • Treba reći pod kakvim uslovima je vršeno merenje • Tip teksta korišćenog za obuku • Tip teksta korišćenog za testiranje • Postoje algoritmi koji rade i sa neanotiranim korpusom GRAZ 2007

  21. Zavisnost problema od jezika • Problem je u velikoj meri zavisan od jezika • Primer: engleski i BKS • Engleski – siromašna morfologija, jednostavan sistem tagova • BKS – bogata morfologija, vrlo velik broj različitih tagova (preko 1000) • U engleskom jeziku informacija o službi u rečenici u mnogo većoj meri je sadržana u redu reči GRAZ 2007

  22. Zavisnost problema od jezika • Veća tačnost automatskih metoda za engleski • Između većeg broja tagova lakše je pogrešiti • Potreban je daleko veći obim materijala za obuku automatskog algoritma za anotaciju na BKS da bi materijal bio statistički reprezentativan! • Problem retkih podataka GRAZ 2007

  23. Algoritmi za automatsku morfološku anotaciju • Algoritmi zasnovani na pravilima • Ekspertski sistemi • Transformaciona anotacija • Algoritmi zasnovani na statističkom modelu jezika • Skriveni Markovljevi modeli GRAZ 2007

  24. Ekspertski sistemi • Najstariji pristup • I faza: određivanje potencijalnih tagova rečnikom • II faza: primena ručno pisanih pravila Karlsson (1995), Voutilainen (1999) • Princip je u upotrebi u AlfaNum sistemu za sintezu govora na srpskom/hrvatskom jeziku • 88% tačnosti morfološke anotacije • 97.5% tačnosti akcentuacije GRAZ 2007

  25. VELIKA GOMILA KNJIGA ... AlfaNum sistem za morfološku anotaciju • Primer: VELIKA GOMILA KNJIGA STOJI NA STOLU. GRAZ 2007

  26. AlfaNum sistem za morfološku anotaciju • Algoritam se izvršava u vremenu proporcionalnom dužini rečenice • Algoritam brzo daje parcijalne rezultate GRAZ 2007

  27. AlfaNum sistem za morfološku anotaciju • Izbor pravila • Na osnovu statistika pojedinih vrsta reči • Na osnovu gramatičkih pravila nađenih u raspoloživoj literaturi • Na osnovu empirijskih zaključaka koji se tiču konkretnih reči GRAZ 2007

  28. AlfaNum sistem za morfološku anotaciju • Obrasci pravila • Dodelanpoena parcijalnoj hipotezih = (w1, w2,... wl) • akowlima tagti • akowlima tagtiawl-1ima tagtj • akowlima tagti, wl-1ima tagtj, a wl-2ima tagtk • akowlima tagti, wl-1ima tagtj, a vrednost morfološke kategorije c sadržane u tagu tije ista (nije ista) kao vrednost odgovarajuće morfološke kategorije sadržane u tagu tj GRAZ 2007

  29. Mogućnost poluautomatske anotacije • Na opisani način može se izgraditi (skoro) 100% tačno anotiran korpus • I faza: automatska morfološka anotacija • II faza: ručno ispravljanje grešaka • Prednosti: • Brzina i efikasnost • Dobija se procena tačnosti algoritma • Analiza grešaka → pravci daljeg usavršavanja GRAZ 2007

  30. Izgradnja korpusa GRAZ 2007

  31. Trenutno stanje na AlfaNum projektu • Realizovan akcenatski rečnik • Preko 80.000 odrednica • Preko 3.000.000 izvedenih oblika reči • Realizovan sistem za automatsku morfološku anotaciju • 88% tačnosti • Realizovan (skoro) 100% tačno anotiran korpus rečenica na srpskom jeziku • 100.000 reči • mešovit sadržaj GRAZ 2007

  32. Poređenje sa MULTEXT East projektom • Realizovan ručno anotiran korpus rečenica na raznim istočnoevropskim jezicima uključujući i srpski • 100.000 reči (George Orwell: „1984.“) • Nema odgovarajućeg rečnika • Za srpski jezik postoji rečnik koji sadrži samo izvedene oblike reči koje se javljaju u tekstu • Nemoguća je potpuno objektivna evaluacija algoritama za automatsku morfološku anotaciju • Dobili bi se bolji rezultati nego što stvarno jesu GRAZ 2007

  33. ? PREZENT KONDICIONAL AORIST Poređenje sa MULTEXT East projektom • Delimična kompatibilnost • MULTEXT East posmatra kontekst širi od reči: ...no nedovoljno brzo da bi sprečio jednu spiralu oštre prašine da uđe zajedno s njim. <w lemma="biti" ana="Vmca3s-an-n---p">bi</w> Hodnik je zaudarao na kuvani kupus i stare otirače. <w lemma="jesam" ana="Va-p3s-an-y---p">je</w> GRAZ 2007

  34. Šta možemo kada imamo korpus? • Možemo razvijati algoritme za još tačniju automatsku morfološku anotaciju • Transformaciona anotacija • Skriveni Markovljevi modeli • Eksponencijalni morfološki anotatori • Metode maksimizacije unakrsne entropije GRAZ 2007

  35. Transformaciona morfološka anotacija • Automatsko učenje na sopstvenim greškama • Obuka • I faza: određivanje najverovatnijeg taga • II faza: identifikacija pravila koja bi smanjila broj grešaka GRAZ 2007

  36. Transformaciona morfološka anotacija • Automatsko učenje na sopstvenim greškama • Obuka • I faza: određivanje najverovatnijeg taga • II faza: identifikacija pravila koja bi smanjila broj grešaka • Anotacija • Primena naučenih pravila na novom tekstu GRAZ 2007

  37. Transformaciona morfološka anotacija • Problem visoko inflektivnih jezika • Prevelik skup tagova • Potrebna ogromna količina materijala za reprezentativnu obuku • Korak ka rešenju • Uvođenje generalnih pravila GRAZ 2007

  38. Skriveni Markovljevi modeli • Primer: estimacija mesta preseka (5) između eksona (E) i introna (I) kod DNA MESTO PRESEKA GRAZ 2007

  39. Skriveni Markovljevi modeli • Obuka • Ispitivanje verovatnoća da se posle određenog taga (ili niza tagova) nađe neki drugi • Anotacija • Određivanje najverovatnijeg niza tagova P (ADJ nom.sg.f → Nc nom.sg.f.) = 0.33 P (ADJ nom.sg.f → Nc gen.pl.f.) = 0.02 P (ADJ nom.sg.f → Vtr/ref pres.3p.sg.) = 0.05 P (ADJ voc.sg.f → Nc nom.sg.f.) = 0.01 P (ADJ voc.sg.f → Nc gen.pl.f.) = 0.02 . . . GRAZ 2007

  40. Skriveni Markovljevi modeli • Red Markovljevih modela • Zavisno od toga da li posmatramo zavisnost samo od prethodne reči ili od nekoliko prethodnih reči • Sa porastom reda drastično raste potrebna količina materijala za obuku • Problemi vezani za inflektivne jezike • Svi problemi koji se javljaju i kod ostalih jezika daleko su izraženiji kod visoko inflektivnih GRAZ 2007

  41. Šta još možemo kada imamo korpus? • Analiza različitih upotreba iste reči • Analiza učestanosti pojedinih reči • Analiza fraza, idioma i kolokacija Krušaka: Pita od krušaka u karamelu, slatkiš od krušaka, stare sorte jabuka, krušaka, Tržište ranim kvalitetnim sortama krušaka, Nakon pranja i sušenja krušaka, fero-hloroza krušaka, desert od krušaka, sastaviti polovine krušaka, 1kg krušaka, Rakija od krušaka, salata od jabuka i krušaka, odlična zaštita jabuka i krušaka, dvije sorte krušaka na istom stablu, umjesto krušaka može i jabuke, površina plantažnih voćnjaka krušaka, Najopasnija bolest jabuka i krušaka. GRAZ 2007

  42. Šta još možemo kada imamo korpus? • Analiza različitih upotreba iste reči • Analiza učestanosti pojedinih reči • Analiza fraza, idioma i kolokacija Krušaka: Pita od krušaka u karamelu, slatkiš od krušaka, stare sorte jabuka, krušaka, Tržište ranim kvalitetnim sortama krušaka, Nakon pranja i sušenja krušaka, fero-hloroza krušaka, desert od krušaka, sastaviti polovine krušaka, 1kg krušaka, Rakija od krušaka, salata od jabuka i krušaka, odlična zaštita jabuka i krušaka, dvije sorte krušaka na istom stablu, umjesto krušaka može i jabuke, površina plantažnih voćnjaka krušaka, Najopasnija bolest jabuka i krušaka. Internet kao korpus: izuzetno velik  neanotiran  besplatan  pun grešaka GRAZ 2007

  43. Zaključak • Ovde se radi o matematičkom problemu • Zavisnost od jezika • Neki algoritmi su pogodniji za neke porodice jezika • Neke porodice jezika su pogodnije za automatsku morfološku anotaciju • Ovo su za sada najreprezentativniji rezultati istraživanja za BKS GRAZ 2007

  44. 44 Hvala na pažnji! GRAZ 2007

More Related