460 likes | 654 Views
AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS. Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala Laboratorija za akustiku i govorne tehnologije. Jezičke tehnologije. Automatsko prevođenje teksta Automatsko rezimiranje teksta
E N D
AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS Milan SečujskiFakultet tehničkih nauka, Novi SadKatedra za telekomunikacije i obradu signalaLaboratorija za akustiku i govorne tehnologije GRAZ 2007
Jezičke tehnologije • Automatsko prevođenje teksta • Automatsko rezimiranje teksta • Automatsko nalaženje informacije u tekstu • Optičko prepoznavanje pisanog teksta • Automatsko vođenje dijaloga • Sinteza govora na osnovu teksta • Prepoznavanje govora GRAZ 2007
Problemi jezičkih tehnologija • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007
Problemi jezičkih tehnologija • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007
Problemi jezičkih tehnologija • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika DANAS JE LEPO VREMEDA NAS JE LEPO VREMEDANAS JELE PO VREMEDA NAS JELE PO VREME GRAZ 2007
Problemi jezičkih tehnologija • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika Ovaj kurs trajaće mesec dana.Mesec je blistao na nebu. GRAZ 2007
Problemi jezičkih tehnologija Kupili su francuski sir i konjak. Dali su joj da pojede bananu jer je bila gladna.Dali su joj da pojede bananu jer je bila prezrela. • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007
Problemi jezičkih tehnologija Jeli primio platu? • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007
Problemi jezičkih tehnologija Možeš li mi dodati so? Koliko ste automobila prodali u februaru? Pod je klizav.Pod je klizav! • Segmentacija pisanog teksta • Segmentacija govora • Rešavanje dvosmislenosti u pogledu značenja reči • Rešavanje sintaksnih dvosmislenosti • Prevazilaženje nesavršenosti ulaznih podataka • Uzimanje u obzir konteksta i namere govornika GRAZ 2007
Može li računar da razmišlja kao čovek? GRAZ 2007
Model prirodnog jezika • Opisati prirodni jezik na matematički način, razumljiv računaru • Kako bi ta pravila trebalo da izgledaju? • Kako se može doći do tih pravila? • Opisati jezik nije isto što i naučiti koristiti ga! • Ovim problemom bavi se računarska lingvistika GRAZ 2007
Statistička obrada prirodnog jezika • Podoblast veštačke inteligencije i lingvistike • Potrebna je vrlo velika količina tekstualnog (ili govornog) materijala za analizu • Rečnici • Tezaurusi • Tekstualni korpusi • Potrebni su algoritmi za stohastičku analizu • Deterministički algoritmi, pogotovo kod dužih rečenica, vrlo često ne daju jedinstveno rešenje. GRAZ 2007
Statistička obrada prirodnog jezika • Podoblast veštačke inteligencije i lingvistike • Potrebna je vrlo velika količina tekstualnog (ili govornog) materijala za analizu • Rečnici • Tezaurusi • Tekstualni korpusi • Potrebni su algoritmi za stohastičku analizu • Deterministički algoritmi, pogotovo kod dužih rečenica, vrlo često ne daju jedinstveno rešenje. TIME FLIES LIKE AN ARROW GRAZ 2007
AlfaNum Rečnik • Spisak reči sa podacima o vrednostima morfoloških kategorija, čitljiv od straneračunara LC Star GRAZ 2007
Rad na rečniku GRAZ 2007
? Pored svoje izdavačke delatnosti,Narodna knjiga počinje sa distribucijom stručneliterature na engle-skom jeziku iz različitih oblasti. Korpus • Anotiran ili neanotiran • U tekstu se reči javljaju u svim svojim pojavnim oblicima • Kako razrešiti dvosmislenost? • Na osnovu učestanosti vrste reči / vrednosti morf. kategorija • Na osnovu učestanosti reči • Na osnovu konteksta GRAZ 2007
Korpus Korpus srpskog jezika (CSL) GRAZ 2007
AlfaNum MULTEXT East Korpus GRAZ 2007
Morfološka anotacija korpusa • Ručno ili automatski • U oba slučaja podložno greškama • Morfološki deskriptori (tagovi) • Šta će se obeležavati – stvar je dogovora • Od toga šta će se obeležavati zavisi: • tačnost anotacije – ručne ili automatske • upotrebljivost dobijenog korpusa • Npr. ako je urađena lematizacija, dobijeni korpus može biti koristan u leksikografiji GRAZ 2007
Tačnost automatske anotacije • Podatak koji uvek treba uzeti sa rezervom • Treba reći koliko ima različitih tagova u usvojenom sistemu i šta se tačno obeležava • Treba reći pod kakvim uslovima je vršeno merenje • Tip teksta korišćenog za obuku • Tip teksta korišćenog za testiranje • Postoje algoritmi koji rade i sa neanotiranim korpusom GRAZ 2007
Zavisnost problema od jezika • Problem je u velikoj meri zavisan od jezika • Primer: engleski i BKS • Engleski – siromašna morfologija, jednostavan sistem tagova • BKS – bogata morfologija, vrlo velik broj različitih tagova (preko 1000) • U engleskom jeziku informacija o službi u rečenici u mnogo većoj meri je sadržana u redu reči GRAZ 2007
Zavisnost problema od jezika • Veća tačnost automatskih metoda za engleski • Između većeg broja tagova lakše je pogrešiti • Potreban je daleko veći obim materijala za obuku automatskog algoritma za anotaciju na BKS da bi materijal bio statistički reprezentativan! • Problem retkih podataka GRAZ 2007
Algoritmi za automatsku morfološku anotaciju • Algoritmi zasnovani na pravilima • Ekspertski sistemi • Transformaciona anotacija • Algoritmi zasnovani na statističkom modelu jezika • Skriveni Markovljevi modeli GRAZ 2007
Ekspertski sistemi • Najstariji pristup • I faza: određivanje potencijalnih tagova rečnikom • II faza: primena ručno pisanih pravila Karlsson (1995), Voutilainen (1999) • Princip je u upotrebi u AlfaNum sistemu za sintezu govora na srpskom/hrvatskom jeziku • 88% tačnosti morfološke anotacije • 97.5% tačnosti akcentuacije GRAZ 2007
VELIKA GOMILA KNJIGA ... AlfaNum sistem za morfološku anotaciju • Primer: VELIKA GOMILA KNJIGA STOJI NA STOLU. GRAZ 2007
AlfaNum sistem za morfološku anotaciju • Algoritam se izvršava u vremenu proporcionalnom dužini rečenice • Algoritam brzo daje parcijalne rezultate GRAZ 2007
AlfaNum sistem za morfološku anotaciju • Izbor pravila • Na osnovu statistika pojedinih vrsta reči • Na osnovu gramatičkih pravila nađenih u raspoloživoj literaturi • Na osnovu empirijskih zaključaka koji se tiču konkretnih reči GRAZ 2007
AlfaNum sistem za morfološku anotaciju • Obrasci pravila • Dodelanpoena parcijalnoj hipotezih = (w1, w2,... wl) • akowlima tagti • akowlima tagtiawl-1ima tagtj • akowlima tagti, wl-1ima tagtj, a wl-2ima tagtk • akowlima tagti, wl-1ima tagtj, a vrednost morfološke kategorije c sadržane u tagu tije ista (nije ista) kao vrednost odgovarajuće morfološke kategorije sadržane u tagu tj GRAZ 2007
Mogućnost poluautomatske anotacije • Na opisani način može se izgraditi (skoro) 100% tačno anotiran korpus • I faza: automatska morfološka anotacija • II faza: ručno ispravljanje grešaka • Prednosti: • Brzina i efikasnost • Dobija se procena tačnosti algoritma • Analiza grešaka → pravci daljeg usavršavanja GRAZ 2007
Izgradnja korpusa GRAZ 2007
Trenutno stanje na AlfaNum projektu • Realizovan akcenatski rečnik • Preko 80.000 odrednica • Preko 3.000.000 izvedenih oblika reči • Realizovan sistem za automatsku morfološku anotaciju • 88% tačnosti • Realizovan (skoro) 100% tačno anotiran korpus rečenica na srpskom jeziku • 100.000 reči • mešovit sadržaj GRAZ 2007
Poređenje sa MULTEXT East projektom • Realizovan ručno anotiran korpus rečenica na raznim istočnoevropskim jezicima uključujući i srpski • 100.000 reči (George Orwell: „1984.“) • Nema odgovarajućeg rečnika • Za srpski jezik postoji rečnik koji sadrži samo izvedene oblike reči koje se javljaju u tekstu • Nemoguća je potpuno objektivna evaluacija algoritama za automatsku morfološku anotaciju • Dobili bi se bolji rezultati nego što stvarno jesu GRAZ 2007
? PREZENT KONDICIONAL AORIST Poređenje sa MULTEXT East projektom • Delimična kompatibilnost • MULTEXT East posmatra kontekst širi od reči: ...no nedovoljno brzo da bi sprečio jednu spiralu oštre prašine da uđe zajedno s njim. <w lemma="biti" ana="Vmca3s-an-n---p">bi</w> Hodnik je zaudarao na kuvani kupus i stare otirače. <w lemma="jesam" ana="Va-p3s-an-y---p">je</w> GRAZ 2007
Šta možemo kada imamo korpus? • Možemo razvijati algoritme za još tačniju automatsku morfološku anotaciju • Transformaciona anotacija • Skriveni Markovljevi modeli • Eksponencijalni morfološki anotatori • Metode maksimizacije unakrsne entropije GRAZ 2007
Transformaciona morfološka anotacija • Automatsko učenje na sopstvenim greškama • Obuka • I faza: određivanje najverovatnijeg taga • II faza: identifikacija pravila koja bi smanjila broj grešaka GRAZ 2007
Transformaciona morfološka anotacija • Automatsko učenje na sopstvenim greškama • Obuka • I faza: određivanje najverovatnijeg taga • II faza: identifikacija pravila koja bi smanjila broj grešaka • Anotacija • Primena naučenih pravila na novom tekstu GRAZ 2007
Transformaciona morfološka anotacija • Problem visoko inflektivnih jezika • Prevelik skup tagova • Potrebna ogromna količina materijala za reprezentativnu obuku • Korak ka rešenju • Uvođenje generalnih pravila GRAZ 2007
Skriveni Markovljevi modeli • Primer: estimacija mesta preseka (5) između eksona (E) i introna (I) kod DNA MESTO PRESEKA GRAZ 2007
Skriveni Markovljevi modeli • Obuka • Ispitivanje verovatnoća da se posle određenog taga (ili niza tagova) nađe neki drugi • Anotacija • Određivanje najverovatnijeg niza tagova P (ADJ nom.sg.f → Nc nom.sg.f.) = 0.33 P (ADJ nom.sg.f → Nc gen.pl.f.) = 0.02 P (ADJ nom.sg.f → Vtr/ref pres.3p.sg.) = 0.05 P (ADJ voc.sg.f → Nc nom.sg.f.) = 0.01 P (ADJ voc.sg.f → Nc gen.pl.f.) = 0.02 . . . GRAZ 2007
Skriveni Markovljevi modeli • Red Markovljevih modela • Zavisno od toga da li posmatramo zavisnost samo od prethodne reči ili od nekoliko prethodnih reči • Sa porastom reda drastično raste potrebna količina materijala za obuku • Problemi vezani za inflektivne jezike • Svi problemi koji se javljaju i kod ostalih jezika daleko su izraženiji kod visoko inflektivnih GRAZ 2007
Šta još možemo kada imamo korpus? • Analiza različitih upotreba iste reči • Analiza učestanosti pojedinih reči • Analiza fraza, idioma i kolokacija Krušaka: Pita od krušaka u karamelu, slatkiš od krušaka, stare sorte jabuka, krušaka, Tržište ranim kvalitetnim sortama krušaka, Nakon pranja i sušenja krušaka, fero-hloroza krušaka, desert od krušaka, sastaviti polovine krušaka, 1kg krušaka, Rakija od krušaka, salata od jabuka i krušaka, odlična zaštita jabuka i krušaka, dvije sorte krušaka na istom stablu, umjesto krušaka može i jabuke, površina plantažnih voćnjaka krušaka, Najopasnija bolest jabuka i krušaka. GRAZ 2007
Šta još možemo kada imamo korpus? • Analiza različitih upotreba iste reči • Analiza učestanosti pojedinih reči • Analiza fraza, idioma i kolokacija Krušaka: Pita od krušaka u karamelu, slatkiš od krušaka, stare sorte jabuka, krušaka, Tržište ranim kvalitetnim sortama krušaka, Nakon pranja i sušenja krušaka, fero-hloroza krušaka, desert od krušaka, sastaviti polovine krušaka, 1kg krušaka, Rakija od krušaka, salata od jabuka i krušaka, odlična zaštita jabuka i krušaka, dvije sorte krušaka na istom stablu, umjesto krušaka može i jabuke, površina plantažnih voćnjaka krušaka, Najopasnija bolest jabuka i krušaka. Internet kao korpus: izuzetno velik neanotiran besplatan pun grešaka GRAZ 2007
Zaključak • Ovde se radi o matematičkom problemu • Zavisnost od jezika • Neki algoritmi su pogodniji za neke porodice jezika • Neke porodice jezika su pogodnije za automatsku morfološku anotaciju • Ovo su za sada najreprezentativniji rezultati istraživanja za BKS GRAZ 2007
44 Hvala na pažnji! GRAZ 2007