170 likes | 306 Views
Ozna čevanje korpusa Ah l ib. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” http://nl.ijs.si/et/ Gra dec , 200 7 -0 2 - 23. Uvod. ozadje postopek pretvorbe pretvorba v HTML lematizacija neznanih besed lematizacija vseh besed. Cilji. Korpus naj bi bil :
E N D
Označevanje korpusa Ahlib Tomaž Erjavec Odsek za tehnologije znanja Institut “Jožef Stefan” http://nl.ijs.si/et/ Gradec, 2007-02-23
Uvod • ozadje • postopek pretvorbe • pretvorba v HTML • lematizacija neznanih besed • lematizacija vseh besed Tomaž Erjavec
Cilji Korpus naj bi bil: • zapisan v standardni obliki--> XML/TEI • dostopenpreko konkordančnika--> lematizacija • primeren za internetno branje--> avtomatsko iz XML Tomaž Erjavec
Metoda • ročne korekture, s sprotnim avtomatskim preverjanjem • http://nl.ijs.si/ahlib/ahlib - 0grska • pošlji datoteke • izberi tip pretvorbe • poberi rezultat • cikličen proces • več (prepletenih) stopenj: • korekture besedila • “prelom” • lematizacija: neznane besede - dopolnjevanje leksikona • lematizacija: celotna besedila – lematizacija posameznega besedila Tomaž Erjavec
Shema pretvorbe • ročne korekcije se izvajajo na lastnem računalniku v orodjih MS Word, MS Excel • te datoteke se avtomatsko pretvorijo v XML in HTML preko spletnega vmesnika Ahlib http://nl.ijs.si/ahlib/ • vmesnik pričakuje datoteko z (največ) eno knjigo • vrne obdelano besedilo • isto besedilo lahko obdelujemo poljubnokrat, da preverimo uspešnost korekcij • vrnjeno besedilo na koncu(?) deponiramo v glavno bazo projekta Tomaž Erjavec
Koraki avtomatske obdelave Osnovni • pretvorba RTF v TEI • pretvorba TEI v HTML Jezikoslovni • lematizacija (in zapis nazaj v TEI) • pretvorba TEI v HTML • generiranje konkordanc neznanih besed(z upoštevanjem že pregledanih) • generiranje polnih konkordanc(z upoštevanjem že pregledanih) Tomaž Erjavec
Koraki v ročni korekturi • Word: korektura RTF, da dobimo pravilno strukturno označeni TEI (HTML) • Excel/Word: korekcija lem iz konkordanc neznanih besed – dopolnjevanje leksikona/ nadaljnje korekture besedila • Excel: korekcija lem iz polnih konkordanc – korekcija posameznega besedila Tomaž Erjavec
1. Pretvorba iz RTF v TEI • RTF služi samo kot vsebinska in oblikovna predloga za zapis TEI: ne diplomatični, temveč kritični prepis! • ime datoteke je pomembno, saj služi za povezovanje s faksimili • RTF mora vsebovati • besedilo • sloge definirane v predlogi • prelome strani za poravnavo s faksimilom • na tej osnovi se v TEI zapišejo ustrezni elementi, npr. <p>, <note>, <foreign> Tomaž Erjavec
Pretvorba iz TEI v HTML • oblika HTML primerna za branje • posamezni elementi barvno označeni • avtomatsko generirano kazalo po poglavjih in straneh • služi kot kontrola za uspešnost pretvorbe • šele ko je v reduHTML, je v redu tudi RTF! Tomaž Erjavec
2. Jezikovna analiza • analiza sestoji iz: • segmentacije na pojavnice (besede, ločila) in povedi • oblikoslovnega označevanja • lematizacije • avtomatske metode analize skozi strojno učenje: statistični označevalnik • uspešnost lematizacije za sodobno slovenščino ~95% Tomaž Erjavec
Napake avtomatske analize • Segmentacija (razdelitev na besede): • večina napak že v izvirniku … on,ki … --> popraviti v RTF • kjer se segmentacija dejansko zmoti, to tudi “popraviti” v RTF ali pa se sprijazniti..(bertranu:) -> ( + bertranu: + )(bertranu:) -> ( + bertranu + : + ) • Lematizacija: • neznane besede -> leksikon • vse besede -> besedilo Tomaž Erjavec
Neznane besede • dostikrat je “neznana beseda” nepopravljena napaka v izvriniku • natančnost lematizacije dosti manjša kot za znane besede • ko leme popravimo, to deponiramo kot dodaten leksikon v sistem • če obstaja dvoumnost lem za določeno besedno obliko, se v leksikon shranijo vse leme - te je naknadno treba razdvoumljati pri korekturah lematizacije vseh besed Tomaž Erjavec
Korekcija vseh besed • popravljamo napake, ko izbrana lema sicer obstaja, a ni pravilna za pojavnico • postopek podoben kot pri korekciji neznanih besed • strežnik vrne konkordance vseh besed v besedilu • konkordance so lahko razdeljene v več datotek • pregledamo vse leme • tudi tu se lahko zgodi, da bi kakšno lemo radi deponirali v leksikon (sistematična napaka, npr. “bara” v “bar” (namesto “barati”) Tomaž Erjavec
Prenos podatkov • podamo eno datoteko ali več datotek združenih v eno datoteko .zip • pozor: pri pošiljanju nekomprimiranih datotek pri nekaterih pride do napake - v tem primeru pošljemo komprimiramo datoteko • zato potrebujemo WinZip ali WinRAR • zahtevamo neposredno želeno datoteko • zahtevamo komprimirano mapo z želenimi datotekami (.zip) • deponiramo jezikoslovne popravke Tomaž Erjavec
Imena datotek Shema poimenovanja: • xxx.pdf faksimile • xxx.rtf digitalni vir besedila • xxxx-doc.xml osnovno besedilo za bazo • xxxx-doc.html osnovno besedilo za gledat • xxxx-ana.xml lematizirano besedilo za bazo • xxxx-ana.html lematizirano besedilo za gledat • xxxx-unk.xml.xls Excel konkordance neznanih besed v XML • xxxx-unk.txt.xls Excel konkordance neznanih besed v tabeli (Excel) • xxxx-all.(N).xml.xls Excel konkordance vseh besed v XML (Excel) • xxxx-all.(N).txt.xls Excel konkordance vseh besed v tabeli (Excel) Pozor: • ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-korekt.rtf • strežnik rahlo preimenuje nekatere datoteke, npr.#22411#roza jelodvorska vX22411Xroza_jelodvorska Tomaž Erjavec
Praktične vaje Strežnik: http://nl.ijs.si/ahlib/ Tomaž Erjavec
Primer: Genovefa • Nekateri znaki se poenostavijo predno gredo v lematizacijo: à, á, … in tudi ſ • Vendar obstajajo tudi druge sistematične spremembe:Kolikorkrat jo je ſrezhal , ga je vſelej… • Enostavno v Excelu: izberi stolpec z lemami, poišči in zamenjaj! Tomaž Erjavec