1 / 17

Ozna čevanje korpusa Ah l ib

Ozna čevanje korpusa Ah l ib. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” http://nl.ijs.si/et/ Gra dec , 200 7 -0 2 - 23. Uvod. ozadje postopek pretvorbe pretvorba v HTML lematizacija neznanih besed lematizacija vseh besed. Cilji. Korpus naj bi bil :

Download Presentation

Ozna čevanje korpusa Ah l ib

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Označevanje korpusa Ahlib Tomaž Erjavec Odsek za tehnologije znanja Institut “Jožef Stefan” http://nl.ijs.si/et/ Gradec, 2007-02-23

  2. Uvod • ozadje • postopek pretvorbe • pretvorba v HTML • lematizacija neznanih besed • lematizacija vseh besed Tomaž Erjavec

  3. Cilji Korpus naj bi bil: • zapisan v standardni obliki--> XML/TEI • dostopenpreko konkordančnika--> lematizacija • primeren za internetno branje--> avtomatsko iz XML Tomaž Erjavec

  4. Metoda • ročne korekture, s sprotnim avtomatskim preverjanjem • http://nl.ijs.si/ahlib/ahlib - 0grska • pošlji datoteke • izberi tip pretvorbe • poberi rezultat • cikličen proces • več (prepletenih) stopenj: • korekture besedila • “prelom” • lematizacija: neznane besede - dopolnjevanje leksikona • lematizacija: celotna besedila – lematizacija posameznega besedila Tomaž Erjavec

  5. Shema pretvorbe • ročne korekcije se izvajajo na lastnem računalniku v orodjih MS Word, MS Excel • te datoteke se avtomatsko pretvorijo v XML in HTML preko spletnega vmesnika Ahlib http://nl.ijs.si/ahlib/ • vmesnik pričakuje datoteko z (največ) eno knjigo • vrne obdelano besedilo • isto besedilo lahko obdelujemo poljubnokrat, da preverimo uspešnost korekcij • vrnjeno besedilo na koncu(?) deponiramo v glavno bazo projekta Tomaž Erjavec

  6. Koraki avtomatske obdelave Osnovni • pretvorba RTF v TEI • pretvorba TEI v HTML Jezikoslovni • lematizacija (in zapis nazaj v TEI) • pretvorba TEI v HTML • generiranje konkordanc neznanih besed(z upoštevanjem že pregledanih) • generiranje polnih konkordanc(z upoštevanjem že pregledanih) Tomaž Erjavec

  7. Koraki v ročni korekturi • Word: korektura RTF, da dobimo pravilno strukturno označeni TEI (HTML) • Excel/Word: korekcija lem iz konkordanc neznanih besed – dopolnjevanje leksikona/ nadaljnje korekture besedila • Excel: korekcija lem iz polnih konkordanc – korekcija posameznega besedila Tomaž Erjavec

  8. 1. Pretvorba iz RTF v TEI • RTF služi samo kot vsebinska in oblikovna predloga za zapis TEI: ne diplomatični, temveč kritični prepis! • ime datoteke je pomembno, saj služi za povezovanje s faksimili • RTF mora vsebovati • besedilo • sloge definirane v predlogi • prelome strani za poravnavo s faksimilom • na tej osnovi se v TEI zapišejo ustrezni elementi, npr. <p>, <note>, <foreign> Tomaž Erjavec

  9. Pretvorba iz TEI v HTML • oblika HTML primerna za branje • posamezni elementi barvno označeni • avtomatsko generirano kazalo po poglavjih in straneh • služi kot kontrola za uspešnost pretvorbe • šele ko je v reduHTML, je v redu tudi RTF! Tomaž Erjavec

  10. 2. Jezikovna analiza • analiza sestoji iz: • segmentacije na pojavnice (besede, ločila) in povedi • oblikoslovnega označevanja • lematizacije • avtomatske metode analize skozi strojno učenje: statistični označevalnik • uspešnost lematizacije za sodobno slovenščino ~95% Tomaž Erjavec

  11. Napake avtomatske analize • Segmentacija (razdelitev na besede): • večina napak že v izvirniku … on,ki … --> popraviti v RTF • kjer se segmentacija dejansko zmoti, to tudi “popraviti” v RTF ali pa se sprijazniti..(bertranu:) -> ( + bertranu: + )(bertranu:) -> ( + bertranu + : + ) • Lematizacija: • neznane besede -> leksikon • vse besede -> besedilo Tomaž Erjavec

  12. Neznane besede • dostikrat je “neznana beseda” nepopravljena napaka v izvriniku • natančnost lematizacije dosti manjša kot za znane besede • ko leme popravimo, to deponiramo kot dodaten leksikon v sistem • če obstaja dvoumnost lem za določeno besedno obliko, se v leksikon shranijo vse leme - te je naknadno treba razdvoumljati pri korekturah lematizacije vseh besed Tomaž Erjavec

  13. Korekcija vseh besed • popravljamo napake, ko izbrana lema sicer obstaja, a ni pravilna za pojavnico • postopek podoben kot pri korekciji neznanih besed • strežnik vrne konkordance vseh besed v besedilu • konkordance so lahko razdeljene v več datotek • pregledamo vse leme • tudi tu se lahko zgodi, da bi kakšno lemo radi deponirali v leksikon (sistematična napaka, npr. “bara” v “bar” (namesto “barati”) Tomaž Erjavec

  14. Prenos podatkov • podamo eno datoteko ali več datotek združenih v eno datoteko .zip • pozor: pri pošiljanju nekomprimiranih datotek pri nekaterih pride do napake - v tem primeru pošljemo komprimiramo datoteko • zato potrebujemo WinZip ali WinRAR • zahtevamo neposredno želeno datoteko • zahtevamo komprimirano mapo z želenimi datotekami (.zip) • deponiramo jezikoslovne popravke Tomaž Erjavec

  15. Imena datotek Shema poimenovanja: • xxx.pdf faksimile • xxx.rtf digitalni vir besedila • xxxx-doc.xml osnovno besedilo za bazo • xxxx-doc.html osnovno besedilo za gledat • xxxx-ana.xml lematizirano besedilo za bazo • xxxx-ana.html lematizirano besedilo za gledat • xxxx-unk.xml.xls Excel konkordance neznanih besed v XML • xxxx-unk.txt.xls Excel konkordance neznanih besed v tabeli (Excel) • xxxx-all.(N).xml.xls Excel konkordance vseh besed v XML (Excel) • xxxx-all.(N).txt.xls Excel konkordance vseh besed v tabeli (Excel) Pozor: • ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-korekt.rtf • strežnik rahlo preimenuje nekatere datoteke, npr.#22411#roza jelodvorska vX22411Xroza_jelodvorska Tomaž Erjavec

  16. Praktične vaje Strežnik: http://nl.ijs.si/ahlib/ Tomaž Erjavec

  17. Primer: Genovefa • Nekateri znaki se poenostavijo predno gredo v lematizacijo: à, á, … in tudi ſ • Vendar obstajajo tudi druge sistematične spremembe:Kolikorkrat jo je ſrezhal , ga je vſelej… • Enostavno v Excelu: izberi stolpec z lemami, poišči in zamenjaj! Tomaž Erjavec

More Related