170 likes | 282 Views
A Magyar Antikvakorpusz fejlesztése. A nyers korpusz főbb adatai. A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) Az átlagos mintaméret: 5% (kb. 2300 szó) A minimális mintaméret: 1000 szó
E N D
A nyers korpusz főbb adatai • A felölelt periódus: 1527–1576 • A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) • Az átlagos mintaméret: 5% (kb. 2300 szó) • A minimális mintaméret: 1000 szó • A teljes korpusz mérete: kb. 240 000 szó ~ kb. 1 200 000 n
A fejlesztés főbb céljai • Minél több teljes szöveg • Minél tágabb időintervallum • Minél mélyebb TEI-annotáció • Rugalmas kereshetőség • Szöveg-kép összekapcsolás • Interaktív kutatóbázissá fejlesztés
A diakrón korpuszok építésének a nehézségei • A betűhív rögzítés nehézségei • A kézírás és a régi nyomtatványok esetében először a grafémákat kell elkülöníteni • A grafémák számítógépen való tárolásának és megjelenítésének a problémája • Az annotáció nehézségei • Az ortográfiai sokszínűség és az alakváltozatok megjelenése bonyolulttá, sokszor lehetetlenné teszi az automatikus annotációt
A Magyar Antikvakorpusz szövege Első változatában (2001-től 2006-ig készült) egy plain text korpusz volt.
A digitális antikvafilológia speciális kérdése: a karakterkezelés • A Unicode kevés (ez azonban idővel valószínűleg megoldódik majd). • Középkori szövegekkel foglalkozó filológusok hozták létre a Medieval Unicode Font Initiative-ot 2001-ben, hogy kidolgozzák a hiányzó grafémák jelölésének a módjait. • Kétféle megoldás van: • ajánlások a Private Use Area használatára, • javaslattétel a Unicode konzorciumnak. • A Unicode 5.1-be pl. 152 javaslatukat vették föl.
A Magyar Antikvakorpusz szövege A konverziós szkript lefuttatása után:
Az Andron Scriptor Web font (Andreas Stötzner MUFI-kompatibilis készlete)
A fontkészlet böngészőbe varázslása: a cufón projekt • Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttelSVG-fonttá konvertáljuk • Ezután az SVG-útvonalakból VML-útvonalakat készít a szkript • Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerverére • A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös <canvas>-sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket
Szabványos annotáció: az XML-kódolás • eXtensible Markup Language (az SGML szabvány egyszerűsített változata) • A dokumentumok tartalmi (és nem formai) elemeinek a megjelölésére való • A jelölőelemek (tagek) szabadon bővíthetők. • Használatuknak szigorú szintaxisa van.
Text Encoding Initiative • 1987-ben, a New York melletti Vassar College-ben volt egy találkozó a humán tudományok digitális dokumentumainak SGML-alapú, platformfüggetlen kódolási módszereinek kidolgozása és fejlesztése érdekében. • Az első (P1) Guidelines 1990-ben jelent meg. • Jelenleg a P5 a legújabb standard (2007). • 2002 óta a TEI az XML-t ajánlja. • 1999-ben konzorcium alakult a norvégiai Bergenben. • Jelenleg is számos szervezet, egyetem, könyvtár támogatja és használja az ajánlásokat. • Bár formálisan csak egyetlen magyar tagja van a konzorciumnak (a Szegedi Egyetem Informatikai Tanszékcsoportja), számos projekt használja (pl. MEK, a ELTE-BIÖP „gépeskönyvei”, hálózati kritikai kiadásai stb.).
A TEI-dokumentumok felépítése <TEI> <teiHeader> (…) </teiHeader> <text> <front> (…) </front> <body> (…) </body> <back> (…) </back> </text> </TEI>
A TEI-header <teiHeader> <fileDesc> <!-- Az adott elektronikus fájl teljes bibliográfiai leírását tartalmazza. --> </fileDesc> <encodingDesc> <!-- Leírja az elektronikus és a forrásszöveg közötti kapcsolatot. --> </encodingDesc> <profileDesc> <!-- A szöveg nem bibliográfiai jellegű tulajdonságait írja le, különös tekintettel a megjelenítésre, a nyelvhasználatra és az elrendezésre. --> </profileDesc> <revisionDesc> <!-- Összegzi a fájlon végzett javításokat. --> </revisionDesc> </teiHeader>
A kereshetőség és interaktivitás biztosítéka: a Drupal CMS • A Drupal egy PHP-ben írt, nyílt forráskódú tartalomkezelő rendszer (Content Management System) • Lehetővé teszi rugalmas web 2.0-ás oldalak építését • Külön modul támogatja a cufónt, valamint az XML-fájlok kezelését • A PHP SimpleXML kiterjesztése alkalmas az XML-fájlok lekérdezésére
A jelenlegi állapot • Hamarosan elkészül a Drupal-alapú honlap • Ez lehetőséget biztosít a rugalmas keresésre • A felhasználók regisztrálhatnak, és interaktívan részt vehetnek a továbbépítésben
Köszönöm a figyelmet! Látogassák meg:www.korpusz.ektf.huwww.digitalisbolcseszet.blog.hu