140 likes | 231 Views
Szöveg- és karakterkódolás XML alapokon. Király Péter Arcanum Adatbázis Kft. A projektek. Hungarológiai alapkönyvtár Klasszikus társadalomtudományi (művelődéstörténeti) művek: „spenót” (irodalomtörténet) Magyar néprajz II–VIII. Magyar színháztörténet
E N D
Szöveg- és karakterkódolás XML alapokon Király PéterArcanum Adatbázis Kft.
A projektek • Hungarológiai alapkönyvtár • Klasszikus társadalomtudományi (művelődéstörténeti) művek: • „spenót” (irodalomtörténet) • Magyar néprajz II–VIII. • Magyar színháztörténet • Demeter Tibor 40 kötetes bibliográfiája (magyar irodalom idegen nyelven) • „saját” adatbázisaink Szöveg- és karakterkódolás xml alapokon
Szedés • Szövegrögzítés • Általában kézi szedés • Rögzített szedési útmutatás (szintek, jegyzetek, képek, különleges karakterek) • Szövegszerkesztővel történik (MS Word, Unipad) • Kapott anyagok konvertálása (MS Word, nyomdai anyagok /QuarkPress, FrameMaker/, adatbázisok /Access, MySQL, PgSQL/, egyedi/ritkán használt/elavult szoftverek ld. Drótos Laci előadásait) • Automatikus karakterfelismerés Szöveg- és karakterkódolás xml alapokon
Szedés: problémák • Képes-e a szedő tagelni? • Milyen formában? • Nem csökkentjük-e drasztikusan azt a hatékonyságot, amiben ő a legjobb? • Az egyedi szoftver korlátai (karakterek, szintek, szemantikus elemek) • Hogyan olcsóbb és/vagy gyorsabb? Szöveg- és karakterkódolás xml alapokon
Korrektúra • Mindig „kézi” korrektúra (létezik – bár kihalóban – a „korrektor” nevű szakmunkatárs, régebben a nyomdák környékén volt fellelhető) • Korrektúrázási útmutató (általában azonos a szedési útmutatóval) • A szedés kinyomtatásával, papíron, tollal történik • Általában többszöri korrektúraforduló hoz csak kielégítő* eredményt Szöveg- és karakterkódolás xml alapokon
Korrektúra: problémák • „Ragaszkodás a tipográfiához” • „Ragaszkodás a helyesíráshoz” • Mindig az adott projekt dönti el, hogy hogy írjuk át a szöveget (akadémiai helyesírás, korabeli ízek megtartása, vélelmezett sajtóhibák) [a közép-latin oklevélszöveg és az indoeurópai nyelvészet professzorának találkozása a korrektúrapéldány fölött] • „pont, pont, vesszőcske” hibák észrevétele • Előre elképzelni az adatbázist, és aszerint dolgozni • „visszajavító” foglalkoztatása szükséges Szöveg- és karakterkódolás xml alapokon
Adatbázisépítés • NEM XML! hanem • Teljes szövegű adatbáziskezelő, ami • tud egy sor dolgot, amit az XML ígér • tudunk belőle XML fájlt konvertálni • Alternatívák: • Folio, Word, WordPerfect, QuarkXPress, FrameMaker, OpenOffice, egyedi szoftverek, pl. Classical Text Editor Szöveg- és karakterkódolás xml alapokon
…vagy közvetlen szerkesztés • XML-szerkesztők • oXygen, XML Spy, Stylus Studio • Általános szerkesztők plug-inekkel • jEdit, Emacs, TEI-Emacs, Eclipse • Programozók egyszerű, de nagyszerű szövegszerkesztői • TextPad, UltraEdit, NoteTab Quark Xpress Szöveg- és karakterkódolás xml alapokon
konvertálás • Folio->FFF (Folio Flat File) • FFF > (Perl scriptek) >XML • Validálás, hibajavítás (az FFF-ben), újra konvertálás • XML + XSL > (xsl processzor) > HTML (vagy ami tetszik) • Igény szerint utófeldolgozás (Perl) • HTML validálás, hibakeresés, visszajavítás Quark Xpress Szöveg- és karakterkódolás xml alapokon
Konvertálás: problémák • Az XSLT a rekurzióra épül, ami nagyon forrásigényes algoritmus • Nincsenek kiforrott, gyors processzorok • Nagy fájlok esetén nehézkes a használata (vagy különféle kompromisszumokat kell kötni) • Karakterkonverziók („natív” ansi/ascii karakterek, karakter egyedek) Quark Xpress Szöveg- és karakterkódolás xml alapokon
Előnyök • Robosztus, többé-kevésbé kompromisszummmentes (ld. szövegkritikai DTD), tartósítható állomány • Beépített hibaellenőrzés • Egyszerűbb újrafelhasználni, mint a valamilyen célra „kihegyezett” formátumokat • Ha nem is a „megígért” ütemben, de mégiscsak gyarapodó támogatás Szöveg- és karakterkódolás xml alapokon
Nehézségek • Konverziós problémák • Nagyfokú munkafegyelem és kooperációs készség szükséges • Pontos előzetes megállapodások, folyamatos konzultáció • Nincsenek kézhezálló, valóban kényelmesen és gyorsan használható eszközök • Számos dolog csak ígéret és nem jelenvalóság (pl. szofisztikált keresés) • költséges Szöveg- és karakterkódolás xml alapokon
< ez nem az a kulcs • Kérdések, problémák, konzultációs és bosszankodási/bosszantási lehetőség: kiru@arcanum.hu Szöveg- és karakterkódolás xml alapokon