1 / 17

A Magyar Antikvakorpusz fejlesztése

A Magyar Antikvakorpusz fejlesztése. A nyers korpusz főbb adatai. A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) Az átlagos mintaméret: 5% (kb. 2300 szó) A minimális mintaméret: 1000 szó

dyan
Download Presentation

A Magyar Antikvakorpusz fejlesztése

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A Magyar Antikvakorpusz fejlesztése

  2. A nyers korpusz főbb adatai • A felölelt periódus: 1527–1576 • A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) • Az átlagos mintaméret: 5% (kb. 2300 szó) • A minimális mintaméret: 1000 szó • A teljes korpusz mérete: kb. 240 000 szó ~ kb. 1 200 000 n

  3. A fejlesztés főbb céljai • Minél több teljes szöveg • Minél tágabb időintervallum • Minél mélyebb TEI-annotáció • Rugalmas kereshetőség • Szöveg-kép összekapcsolás • Interaktív kutatóbázissá fejlesztés

  4. A diakrón korpuszok építésének a nehézségei • A betűhív rögzítés nehézségei • A kézírás és a régi nyomtatványok esetében először a grafémákat kell elkülöníteni • A grafémák számítógépen való tárolásának és megjelenítésének a problémája • Az annotáció nehézségei • Az ortográfiai sokszínűség és az alakváltozatok megjelenése bonyolulttá, sokszor lehetetlenné teszi az automatikus annotációt

  5. A Magyar Antikvakorpusz szövege Első változatában (2001-től 2006-ig készült) egy plain text korpusz volt.

  6. A digitális antikvafilológia speciális kérdése: a karakterkezelés • A Unicode kevés (ez azonban idővel valószínűleg megoldódik majd). • Középkori szövegekkel foglalkozó filológusok hozták létre a Medieval Unicode Font Initiative-ot 2001-ben, hogy kidolgozzák a hiányzó grafémák jelölésének a módjait. • Kétféle megoldás van: • ajánlások a Private Use Area használatára, • javaslattétel a Unicode konzorciumnak. • A Unicode 5.1-be pl. 152 javaslatukat vették föl.

  7. A Medieval Unicode Font Initiative

  8. A Magyar Antikvakorpusz szövege A konverziós szkript lefuttatása után:

  9. Az Andron Scriptor Web font (Andreas Stötzner MUFI-kompatibilis készlete)

  10. A fontkészlet böngészőbe varázslása: a cufón projekt • Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttelSVG-fonttá konvertáljuk • Ezután az SVG-útvonalakból VML-útvonalakat készít a szkript • Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerverére • A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös <canvas>-sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket

  11. Szabványos annotáció: az XML-kódolás • eXtensible Markup Language (az SGML szabvány egyszerűsített változata) • A dokumentumok tartalmi (és nem formai) elemeinek a megjelölésére való • A jelölőelemek (tagek) szabadon bővíthetők. • Használatuknak szigorú szintaxisa van.

  12. Text Encoding Initiative • 1987-ben, a New York melletti Vassar College-ben volt egy találkozó a humán tudományok digitális dokumentumainak SGML-alapú, platformfüggetlen kódolási módszereinek kidolgozása és fejlesztése érdekében. • Az első (P1) Guidelines 1990-ben jelent meg. • Jelenleg a P5 a legújabb standard (2007). • 2002 óta a TEI az XML-t ajánlja. • 1999-ben konzorcium alakult a norvégiai Bergenben. • Jelenleg is számos szervezet, egyetem, könyvtár támogatja és használja az ajánlásokat. • Bár formálisan csak egyetlen magyar tagja van a konzorciumnak (a Szegedi Egyetem Informatikai Tanszékcsoportja), számos projekt használja (pl. MEK, a ELTE-BIÖP „gépeskönyvei”, hálózati kritikai kiadásai stb.).

  13. A TEI-dokumentumok felépítése <TEI> <teiHeader> (…) </teiHeader> <text> <front> (…) </front> <body> (…) </body> <back> (…) </back> </text> </TEI>

  14. A TEI-header <teiHeader> <fileDesc> <!-- Az adott elektronikus fájl teljes bibliográfiai leírását tartalmazza. --> </fileDesc> <encodingDesc> <!-- Leírja az elektronikus és a forrásszöveg közötti kapcsolatot. --> </encodingDesc> <profileDesc> <!-- A szöveg nem bibliográfiai jellegű tulajdonságait írja le, különös tekintettel a megjelenítésre, a nyelvhasználatra és az elrendezésre. --> </profileDesc> <revisionDesc> <!-- Összegzi a fájlon végzett javításokat. --> </revisionDesc> </teiHeader>

  15. A kereshetőség és interaktivitás biztosítéka: a Drupal CMS • A Drupal egy PHP-ben írt, nyílt forráskódú tartalomkezelő rendszer (Content Management System) • Lehetővé teszi rugalmas web 2.0-ás oldalak építését • Külön modul támogatja a cufónt, valamint az XML-fájlok kezelését • A PHP SimpleXML kiterjesztése alkalmas az XML-fájlok lekérdezésére

  16. A jelenlegi állapot • Hamarosan elkészül a Drupal-alapú honlap • Ez lehetőséget biztosít a rugalmas keresésre • A felhasználók regisztrálhatnak, és interaktívan részt vehetnek a továbbépítésben

  17. Köszönöm a figyelmet! Látogassák meg:www.korpusz.ektf.huwww.digitalisbolcseszet.blog.hu

More Related