320 likes | 529 Views
Ozna čevanje korpusa AH l ib. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” tomaz.erjavec@ijs.si , http://nl.ijs.si/et/ Graz, 2006-05-10. Urnik. 09:00 - 10:00 uvod, shema pretvorbe 10:00 - 11:00 predstavitev na primerih 11:00 - 13:00 prakti č no delo
E N D
Označevanje korpusa AHlib Tomaž Erjavec Odsek za tehnologije znanja Institut “Jožef Stefan” tomaz.erjavec@ijs.si, http://nl.ijs.si/et/ Graz, 2006-05-10
Urnik • 09:00 - 10:00uvod, shema pretvorbe • 10:00 - 11:00 predstavitev na primerih • 11:00 - 13:00 praktično delo • 13:00 - kosilo • ?14:00 - …nadaljevanje praktičnega dela Tomaž Erjavec
Uvod • ozadje • postopek pretvorbe • pretvorba v XML/HTML • označevanje neznanih besed Tomaž Erjavec
Cilji Idealna končna različica korpusa: • primerna za internetno branje, s povezavami na faksimile --> HTML (brez napak in oblikovan) • jezikoslovno dostopna, torej preko konkordančnika, z lematiziranimi besednimi oblikami --> baza konkordančnika (jezikovna analiza) • zapisana v standardni obliki--> XML/TEI Tomaž Erjavec
Standardi zapisa • zapis mora biti prenosljiv med računalniškimi platformami in aplikacijami in odporen na tehnološke spremembe • XML: eXtended Markup Language: splošen (meta)jezik za zapis digitalnih podatkov • TEI: Text Encoding Initiative:TEI P4 Guidelines: tip dokumentov XMLformalno določi nabore elementov in jih dokumentira Tomaž Erjavec
Dokument XML <pesem> <naslov>Uvod.</naslov> <kitica> <v>Dvigni se! ukawz mi reče.</v> <v>Srce pade mi v oblasti</v> <v>Silne, prej neznane strasti,</v> <v>Ki ko živi ogenj peče.</v> </kitica> <kitica> <v>Čut se zlije mi v besede. -</v> <v>Preč so črne bolečine,</v> <v>Strast občutkov divjih mine,</v> <v>Jasen mir se v prsi vsede.</v> </kitica> </pesem> dokument = besedilo + oznake element = začetna oznaka + vsebina + končna oznaka element vsebuje besedilo ali elemente ali oboje (ali nič) Tomaž Erjavec
TEI • Text Encoding InitiativeGuidelines • določi nabore elementov in jih dokumentiranpr. <p>, <note>, <head>, <div> • določi kako naj se elementi med seboj gnezdijonpr. da je <p> znotraj <div> dovoljen, obratno pa ne Tomaž Erjavec
Jezikovna analiza v TEI Tomaž Erjavec
Končna vsebina baze AHlib Vsaka knjiga: • shranjena v standardnem zapisu XML/TEI • zapis vsebuje strukturne elemente (poglavja, opombe, tujejezične citate…) • zapis vsebuje, za vsako pojavnico (besedo v besedilu) njeno lemo • shranjena tudi v izpisu v HTML, ki je avtomatsko izveden iz TEI (t.i. stil XSLT) • povezana s svojim faksimilom(trenutno - več ali manj - samo na nivoju celotne knjige v formatu PDF, kasneje verjetno po straneh ali celo grafičnih elementih) Tomaž Erjavec
Primer digitalne knjige: Brižinski spomeniki • projekt Elektronske izdaje slovenskega slovstva • ZRC SAZU (Matija Ogrin) + IJS • vse izdaje zapisane v XML/TEI • kompleksen izveden izpis v HTML • e-BS, dosedaj najbolj zahtevna izdaja projekta • trenutno v delu • povezave: navzkrižne, faksimile, govor, Wikipedia …demo Tomaž Erjavec
Primer konkodančnika • portal nl2.ijs.si: • eno in dvo-jezične konkordance v več formatih • posamezni korpusi oblikoslovno označeni in lematizirani • največji korpus 2x5 milijonov besed: vzporedni angl.-slov. korpus SVEZ-IJS …demo Tomaž Erjavec
Koraki pretvorbev AHlib • Digitalni zapis faksimila + OCR • korekture besedila • pretvorba iz RTF v TEI • avtomatska • korekture strukture v RTF • pretvorba iz TEI v HTML • jezikovna analiza zapisa TEI • avtomatska • korekture napak … (vnos v knjižnico in konkordančnik) Tomaž Erjavec
Komplikacija Rezultat avtomatske pretvorbe dostikrat odkrije napake v prejšnjih stopnjah ročnih korekcij: • HTML pokaže napake v strukturi RTF • lematizacija pokaže pomanjkljive korekture --> obdelave se morajo izvajati ciklično Tomaž Erjavec
Shema pretvorbe • ročne korekcije se izvajajo na lastnem računalniku v orodjih MS Word, MS Excel • avtomatske pretvorbe & označevanje se izvajajo preko spletnega vmesnika Ahlib http://nl.ijs.si/ahlib/ • vmesnik pričakuje datoteko .zipz (največ) eno knjigo • vrne obdelano besedilo • isto besedilo lahko obdelujemo poljubnokrat, da preverimo uspešnost korekcij • vrnjeno besedilo na koncu(?) deponiramo v glavno bazo projekta Tomaž Erjavec
Koraki avtomatske obdelave Osnovni: • pretvorba RTF v TEI • pretvorba TEI v HTML Jezikoslovni: • lematizacija TEI • generiranje konkordanc neznanih besed • lem. z upoštevanjem pregledanih 2 • (generiranje polnih konkordanc) • ((lem. z upoštevanjem pregledanih 4)) Tomaž Erjavec
Koraki v ročni korekturi • Word: korektura RTF, da dobimo pravilno strukturno označeni TEI (HTML) • Excel: korekcija lem iz konkordanc neznanih besed • (Excel: korekcija polnih konkordanc) Računalniška podpora na strežniku: • narejeno (še par manjših popravkov) • delovna verzija • v delu Tomaž Erjavec
1. Pretvorba iz RTF v TEI • RTF služi samo kot vsebinska in oblikovna predloga za zapis TEI: ne diplomatični, temveč kritični prepis! • ime datoteke je pomembno, saj služi za povezovanje s faksimili • RTF mora vsebovati • besedilo • sloge definirane v predlogi • prelome strani za poravnavo s faksimilom • na tej osnovi se v TEI zapišejo ustrezni elementi, npr. <p>, <note>, <foreign> Tomaž Erjavec
Pretvorba iz TEI v HTML • oblika HTML primerna za branje • posamezni elementi barvno označeni • avtomatsko generirano kazalo po poglavjih in straneh • služi kot kontrola za uspešnost pretvorbe • šele ko je HTML v redu, je v redu tudi RTF! • trenutni HTML mišljen za lektorje, ne kot končna oblika (pripombe na uporabnost dobrodošle) …glej http://nl.ijs.si/e-zrc/doc/primeri/ Tomaž Erjavec
2. Jezikovna analiza • analiza sestoji iz: • segmentacije na pojavnice (besede, ločila) in povedi • oblikoslovnega označevanja • lematizacije • avtomatske metode analize skozi strojno učenje: statistični označevalnik (totale) • uspešnost lematizacije za sodobno slovenščino ~95% Tomaž Erjavec
Napake avtomatske analize • Segmentacija: • večina napak v vhodu … on,ki … --> popraviti v RTF • napake zaradi kratic (popravljati?) • druge napake (ni predvideno) • Oblikoslovno označevanje • povzroči večino napak v lematizaciji • popraviti za prvih 100 (ali več?) • Lematizacija: • neznane besede • dvoumnost Tomaž Erjavec
Neznane besede • natančnost lematizacije dosti manjša kot za znane besede • imena, starinske besede oz. oblike besed, spremenjena abeceda • kako določiti lemo?(Pleteršnik, forum, konkordance) Tomaž Erjavec
Problem dvoumnost • homonimija (znanih) besednih oblik • npr. hotela --> hoteti|hotel • pravilna interpretacija odvisna od konteksta • npr. Hotela[V]staiti domov. • napaka označevalnika povzroči napako lematizacije:Hotela[*N] --> [*hotel] • včasih težko celo za človeka:Sedel je. [?sesti][?sedeti] Tomaž Erjavec
Korekcije neznanih besede • vmesniku se pošlje knjigo • izbere se opcijo za neznane besede • vmesnik vrne konkordance neznanih besed v knjigi • konkordance se odpre z Excel • dva formata: • XML za Office 2003 Professional • tabela, za navaden Excel …glej http://nl.ijs.si/e-zrc/doc/primeri/ Tomaž Erjavec
Popravljanje • konkordance se pregleda in popravi: • originalni RTF, v primeru slabe lekture • napačne leme v konkordancah • pozor: leme so lahko dvoumne • vmesniku se pošilja knjigo + leksikon pregledanih, dokler vse besede niso pregledane • popravki se lahko (naj se) izvajajo po delih Tomaž Erjavec
Dodajanje leksikona označevalniku • konkordance (leksikone) pregledanih neznanih besed se tudi deponira na strežnik • s tem postanejo nove besedne oblike s svojimi lemami dostopne za avtomatsko označevanje ostalih knjig • potrebna previdnost, da ne deponiramo nekaj, česar nočemo! Tomaž Erjavec
Korekcija konkordanc • popravljamo napake, ko izbrana lema sicer obstaja, a ni pravilna za pojavnico • postopek podoben kot pri korekcija neznanih besed • strežnika vrne konkordance (leksikon) vseh besed v besedilu • pregledamo vse leme • še v delu • problemi: velikost datoteke Excel, oblika zapisa v TEI, deponiranje rezultata • boljše označevanje.. • naslednje šolanje! Tomaž Erjavec
Demonstracija • spletni strežnik • popravki besedila (Word) • popravki leksikona (Excel) Tomaž Erjavec
http://nl.ijs.si/ahlib/ Tomaž Erjavec
Prenos podatkov • podamo eno ali več datotek združenih v eno datoteko .zip • zato potrebujemo WinZip, bolje WinRAR • zahtevamo neposredno želeno datoteko • zahtevamo komprimirano mapo z želenimi datotekami (.tgz) • deponiramo jezikoslovne popravke Tomaž Erjavec
Imena datotek Shema poimenovanja: • xxxx.pdf faksimile • xxxx.rtf digitalni vir besedila • xxxx.tei.xml besedilo za bazo • xxxx.tei.html besedilo za gledat • xxxx-unk.xls.xml konkordance neznanih besed v XML (Excel) • xxxx-unk.xls.txt konkordance neznanih besed v tabeli (Excel) • (xxxx-lex.xls.txt leksikon neznanih besed v tabeli (Excel)) • xxxx-all.(N).xls.xml: polne konkordance v XML (Excel) Pozor: • ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-korekt.rtf • strežnik rahlo preimenuje nekatere datoteke, npr.#22411#roza jelodvorska vX22411Xroza_jelodvorska Tomaž Erjavec
Praktične vaje Strežnik: http://nl.ijs.si/ahlib/ (že obdelani) primeri: • lokalno • testna datoteka: ###000AHlib tst-et.zip • http://nl.ijs.si/ahlib/doc/primeri/ Tomaž Erjavec
Odprta vprašanja • deponiranje besedil v bazo • prilagoditev avtomatskega označevanja za AHlib • dinamika korektur Tomaž Erjavec