1 / 32

Ozna čevanje korpusa AH l ib

Ozna čevanje korpusa AH l ib. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” tomaz.erjavec@ijs.si , http://nl.ijs.si/et/ Graz, 2006-05-10. Urnik. 09:00 - 10:00 uvod, shema pretvorbe 10:00 - 11:00 predstavitev na primerih 11:00 - 13:00 prakti č no delo

Download Presentation

Ozna čevanje korpusa AH l ib

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Označevanje korpusa AHlib Tomaž Erjavec Odsek za tehnologije znanja Institut “Jožef Stefan” tomaz.erjavec@ijs.si, http://nl.ijs.si/et/ Graz, 2006-05-10

  2. Urnik • 09:00 - 10:00uvod, shema pretvorbe • 10:00 - 11:00 predstavitev na primerih • 11:00 - 13:00 praktično delo • 13:00 - kosilo • ?14:00 - …nadaljevanje praktičnega dela Tomaž Erjavec

  3. Uvod • ozadje • postopek pretvorbe • pretvorba v XML/HTML • označevanje neznanih besed Tomaž Erjavec

  4. Cilji Idealna končna različica korpusa: • primerna za internetno branje, s povezavami na faksimile --> HTML (brez napak in oblikovan) • jezikoslovno dostopna, torej preko konkordančnika, z lematiziranimi besednimi oblikami --> baza konkordančnika (jezikovna analiza) • zapisana v standardni obliki--> XML/TEI Tomaž Erjavec

  5. Standardi zapisa • zapis mora biti prenosljiv med računalniškimi platformami in aplikacijami in odporen na tehnološke spremembe • XML: eXtended Markup Language: splošen (meta)jezik za zapis digitalnih podatkov • TEI: Text Encoding Initiative:TEI P4 Guidelines: tip dokumentov XMLformalno določi nabore elementov in jih dokumentira Tomaž Erjavec

  6. Dokument XML <pesem> <naslov>Uvod.</naslov> <kitica> <v>Dvigni se! ukawz mi reče.</v> <v>Srce pade mi v oblasti</v> <v>Silne, prej neznane strasti,</v> <v>Ki ko živi ogenj peče.</v> </kitica> <kitica> <v>Čut se zlije mi v besede. -</v> <v>Preč so črne bolečine,</v> <v>Strast občutkov divjih mine,</v> <v>Jasen mir se v prsi vsede.</v> </kitica> </pesem> dokument = besedilo + oznake element = začetna oznaka + vsebina + končna oznaka element vsebuje besedilo ali elemente ali oboje (ali nič) Tomaž Erjavec

  7. TEI • Text Encoding InitiativeGuidelines • določi nabore elementov in jih dokumentiranpr. <p>, <note>, <head>, <div> • določi kako naj se elementi med seboj gnezdijonpr. da je <p> znotraj <div> dovoljen, obratno pa ne Tomaž Erjavec

  8. Jezikovna analiza v TEI Tomaž Erjavec

  9. Končna vsebina baze AHlib Vsaka knjiga: • shranjena v standardnem zapisu XML/TEI • zapis vsebuje strukturne elemente (poglavja, opombe, tujejezične citate…) • zapis vsebuje, za vsako pojavnico (besedo v besedilu) njeno lemo • shranjena tudi v izpisu v HTML, ki je avtomatsko izveden iz TEI (t.i. stil XSLT) • povezana s svojim faksimilom(trenutno - več ali manj - samo na nivoju celotne knjige v formatu PDF, kasneje verjetno po straneh ali celo grafičnih elementih) Tomaž Erjavec

  10. Primer digitalne knjige: Brižinski spomeniki • projekt Elektronske izdaje slovenskega slovstva • ZRC SAZU (Matija Ogrin) + IJS • vse izdaje zapisane v XML/TEI • kompleksen izveden izpis v HTML • e-BS, dosedaj najbolj zahtevna izdaja projekta • trenutno v delu • povezave: navzkrižne, faksimile, govor, Wikipedia …demo Tomaž Erjavec

  11. Primer konkodančnika • portal nl2.ijs.si: • eno in dvo-jezične konkordance v več formatih • posamezni korpusi oblikoslovno označeni in lematizirani • največji korpus 2x5 milijonov besed: vzporedni angl.-slov. korpus SVEZ-IJS …demo Tomaž Erjavec

  12. Koraki pretvorbev AHlib • Digitalni zapis faksimila + OCR • korekture besedila • pretvorba iz RTF v TEI • avtomatska • korekture strukture v RTF • pretvorba iz TEI v HTML • jezikovna analiza zapisa TEI • avtomatska • korekture napak … (vnos v knjižnico in konkordančnik) Tomaž Erjavec

  13. Komplikacija Rezultat avtomatske pretvorbe dostikrat odkrije napake v prejšnjih stopnjah ročnih korekcij: • HTML pokaže napake v strukturi RTF • lematizacija pokaže pomanjkljive korekture --> obdelave se morajo izvajati ciklično Tomaž Erjavec

  14. Shema pretvorbe • ročne korekcije se izvajajo na lastnem računalniku v orodjih MS Word, MS Excel • avtomatske pretvorbe & označevanje se izvajajo preko spletnega vmesnika Ahlib http://nl.ijs.si/ahlib/ • vmesnik pričakuje datoteko .zipz (največ) eno knjigo • vrne obdelano besedilo • isto besedilo lahko obdelujemo poljubnokrat, da preverimo uspešnost korekcij • vrnjeno besedilo na koncu(?) deponiramo v glavno bazo projekta Tomaž Erjavec

  15. Koraki avtomatske obdelave Osnovni: • pretvorba RTF v TEI • pretvorba TEI v HTML Jezikoslovni: • lematizacija TEI • generiranje konkordanc neznanih besed • lem. z upoštevanjem pregledanih 2 • (generiranje polnih konkordanc) • ((lem. z upoštevanjem pregledanih 4)) Tomaž Erjavec

  16. Koraki v ročni korekturi • Word: korektura RTF, da dobimo pravilno strukturno označeni TEI (HTML) • Excel: korekcija lem iz konkordanc neznanih besed • (Excel: korekcija polnih konkordanc) Računalniška podpora na strežniku: • narejeno (še par manjših popravkov) • delovna verzija • v delu Tomaž Erjavec

  17. 1. Pretvorba iz RTF v TEI • RTF služi samo kot vsebinska in oblikovna predloga za zapis TEI: ne diplomatični, temveč kritični prepis! • ime datoteke je pomembno, saj služi za povezovanje s faksimili • RTF mora vsebovati • besedilo • sloge definirane v predlogi • prelome strani za poravnavo s faksimilom • na tej osnovi se v TEI zapišejo ustrezni elementi, npr. <p>, <note>, <foreign> Tomaž Erjavec

  18. Pretvorba iz TEI v HTML • oblika HTML primerna za branje • posamezni elementi barvno označeni • avtomatsko generirano kazalo po poglavjih in straneh • služi kot kontrola za uspešnost pretvorbe • šele ko je HTML v redu, je v redu tudi RTF! • trenutni HTML mišljen za lektorje, ne kot končna oblika (pripombe na uporabnost dobrodošle) …glej http://nl.ijs.si/e-zrc/doc/primeri/ Tomaž Erjavec

  19. 2. Jezikovna analiza • analiza sestoji iz: • segmentacije na pojavnice (besede, ločila) in povedi • oblikoslovnega označevanja • lematizacije • avtomatske metode analize skozi strojno učenje: statistični označevalnik (totale) • uspešnost lematizacije za sodobno slovenščino ~95% Tomaž Erjavec

  20. Napake avtomatske analize • Segmentacija: • večina napak v vhodu … on,ki … --> popraviti v RTF • napake zaradi kratic (popravljati?) • druge napake (ni predvideno) • Oblikoslovno označevanje • povzroči večino napak v lematizaciji • popraviti za prvih 100 (ali več?) • Lematizacija: • neznane besede • dvoumnost Tomaž Erjavec

  21. Neznane besede • natančnost lematizacije dosti manjša kot za znane besede • imena, starinske besede oz. oblike besed, spremenjena abeceda • kako določiti lemo?(Pleteršnik, forum, konkordance) Tomaž Erjavec

  22. Problem dvoumnost • homonimija (znanih) besednih oblik • npr. hotela --> hoteti|hotel • pravilna interpretacija odvisna od konteksta • npr. Hotela[V]staiti domov. • napaka označevalnika povzroči napako lematizacije:Hotela[*N] --> [*hotel] • včasih težko celo za človeka:Sedel je. [?sesti][?sedeti] Tomaž Erjavec

  23. Korekcije neznanih besede • vmesniku se pošlje knjigo • izbere se opcijo za neznane besede • vmesnik vrne konkordance neznanih besed v knjigi • konkordance se odpre z Excel • dva formata: • XML za Office 2003 Professional • tabela, za navaden Excel …glej http://nl.ijs.si/e-zrc/doc/primeri/ Tomaž Erjavec

  24. Popravljanje • konkordance se pregleda in popravi: • originalni RTF, v primeru slabe lekture • napačne leme v konkordancah • pozor: leme so lahko dvoumne • vmesniku se pošilja knjigo + leksikon pregledanih, dokler vse besede niso pregledane • popravki se lahko (naj se) izvajajo po delih Tomaž Erjavec

  25. Dodajanje leksikona označevalniku • konkordance (leksikone) pregledanih neznanih besed se tudi deponira na strežnik • s tem postanejo nove besedne oblike s svojimi lemami dostopne za avtomatsko označevanje ostalih knjig • potrebna previdnost, da ne deponiramo nekaj, česar nočemo! Tomaž Erjavec

  26. Korekcija konkordanc • popravljamo napake, ko izbrana lema sicer obstaja, a ni pravilna za pojavnico • postopek podoben kot pri korekcija neznanih besed • strežnika vrne konkordance (leksikon) vseh besed v besedilu • pregledamo vse leme • še v delu • problemi: velikost datoteke Excel, oblika zapisa v TEI, deponiranje rezultata • boljše označevanje.. • naslednje šolanje! Tomaž Erjavec

  27. Demonstracija • spletni strežnik • popravki besedila (Word) • popravki leksikona (Excel) Tomaž Erjavec

  28. http://nl.ijs.si/ahlib/ Tomaž Erjavec

  29. Prenos podatkov • podamo eno ali več datotek združenih v eno datoteko .zip • zato potrebujemo WinZip, bolje WinRAR • zahtevamo neposredno želeno datoteko • zahtevamo komprimirano mapo z želenimi datotekami (.tgz) • deponiramo jezikoslovne popravke Tomaž Erjavec

  30. Imena datotek Shema poimenovanja: • xxxx.pdf faksimile • xxxx.rtf digitalni vir besedila • xxxx.tei.xml besedilo za bazo • xxxx.tei.html besedilo za gledat • xxxx-unk.xls.xml konkordance neznanih besed v XML (Excel) • xxxx-unk.xls.txt konkordance neznanih besed v tabeli (Excel) • (xxxx-lex.xls.txt leksikon neznanih besed v tabeli (Excel)) • xxxx-all.(N).xls.xml: polne konkordance v XML (Excel) Pozor: • ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-korekt.rtf • strežnik rahlo preimenuje nekatere datoteke, npr.#22411#roza jelodvorska vX22411Xroza_jelodvorska Tomaž Erjavec

  31. Praktične vaje Strežnik: http://nl.ijs.si/ahlib/ (že obdelani) primeri: • lokalno • testna datoteka: ###000AHlib tst-et.zip • http://nl.ijs.si/ahlib/doc/primeri/ Tomaž Erjavec

  32. Odprta vprašanja • deponiranje besedil v bazo • prilagoditev avtomatskega označevanja za AHlib • dinamika korektur Tomaž Erjavec

More Related