280 likes | 407 Views
Bruk av SGML/XML innen arkivsektoren: konvertering av manuskript- og brev-kataloger til SGML/XML, og presentasjon av ulike versjoner vha. XSL stilark. Tone Merete Bruvik HIT-senteret, Universitetet i Bergen XML og XSL i MALVINE-prosjektet. Satsningsområder for HIT-senteret.
E N D
Bruk av SGML/XML innen arkivsektoren: konvertering av manuskript- og brev-kataloger til SGML/XML, og presentasjon av ulike versjoner vha. XSL stilark. Tone Merete BruvikHIT-senteret, Universitetet i BergenXML og XSL i MALVINE-prosjektet
Satsningsområder for HIT-senteret Språkteknologi med hovedvekt på korpuslingvistikk, terminologi og leksikografi Avansert utgivelsesfilologi Opprettelse av omfattende digitale ressurser (avanserte Verdensvev-baserte databaser) Programvareutvikling http://www.hit.uib.no/
Noen prosjekter ved HIT-senteret Elektronisk utgave av Ibsens skrifter (SGML-kodet) Wittgensteinarkivet ICAME - International Computer Archive of Modern and Medieval English NORDLEXIN-N
TEI - Text Encoding Initiative HIT-senteret er vert for TEI consortium, sammen med: - University of Virginia - University of Oxford - Brown University Se: http://www.tei-c.org/
MALVINE Manuscripts And Letters Via Integrated Networks in Europe Oppstart: juli 1998; avsluttes: desember 2000 Delfinansiert av EU, IV rammeprogram. Se:http://www.malvine.org/
Brev- og manuskript-samlinger Består av unike objekter. De er spredt over mange steder og institusjoner. Katalogene over innholdet i arkivene er helt avgjørende med tanke på bruksverdi. Kildetekstene vil bare bli kodet i helt spesielle tilfeller.
Mål for MALVINE Å bedre tilgangen til katalogene ved en del sentrale manuskriptsamlinger i Europa ved å utvikle et felles brukergrensesnitt over internett mot de ulike katalogdatabasene. Vi vil bruke multi-site søkemaskiner, OPAC, Z39.50 og diverse konverteringsverktøy.
MALVINE konsortium: 18 partnere, fra 9 land i Europa. Staatsbibliothek zu Berlin, prosjektkoordinator. Crossnet Systems Ltd., prosjektstyring. Utviklere: Joanneum Research, Østerrike. HIT-senteret, UiB. Fraunhofer-Institut für Software- und Systemtechnik, Germany.
Dataleverandører: Biblioteca de Universidad Complutense Biblioteca Nacional de Portugal British Library Deutsches Literaturarchiv Forschungsstelle und Dokumentationszentrum für Österreichische Philosophie Goethe- und Schiller-Archiv
Institut für Wissenschaftstheorie und Wissenschaftsforschung der Universität Wien Institut Mémoires de l'Edition Contemporaine Nationalmuseet i Danmark Österreichische Nationalbibliothek Swiss National Library K.G. Saur Verlag
SGML brukbarhetsstudie Mål: Lage konverteringsverktøy mellom ulike katalogformater og SGML/XML. Opparbeide og formidle erfaring med bruk av SGML/XML innen arkiv- og biblioteks-sektoren.
Valg av DTD Vi har vurdert DTDer som CIMI, MARC, EAD og TEI. EAD (Encoded Archival Description) ble valgt fordi den er laget spesielt for arkivmateriale, den er relativt oversiktlig, godt dokumentert, er i bruk og har blitt godt mottatt. Mer om EAD: http://www.loc.gov/ead/
Relasjonen til resten av MALVINE-prosjektet Lokal katalog u/Z39.50 Søkemotor XSL Perl skript Fil Prosesserer EAD katalog Lokale kataloger m/Z39.50 Kopi av katalog m/Z39.50
Konvertering til XML/SGML http://helmer.hit.uib.no/malvine/EADpage.html Perl skript Lokal katalog Eksport XML Konv. tabell Konv. tabell Konv. tabell Konv. tabell Konv. tabell
Lokale formater Ca. 12 ulike lokale formater (USMARC,UNIMARC, RNA/MAB-2, o.a.) Bare de delene av formatene som blir brukt i manuskript/brev kataloger kan konverteres.
Koding av diakritiske tegn Vi bruker denne Unicode kodingen: à = a + ` (à) Ikke à (à)
Kataloger på WWW Kataloger kodet i XML tilgjengelig fra http://helmer.hit.uib.no/malvine/EADpage.html Bruker XSL - Extensible Stylesheet Language. Vi har laget et CGI-skript slik at brukeren kan velge stilark. Kan leses med Internet Explorer 5.0
Konvertering fra EAD til lokale formater Katalogene holdes i XML, men stilarkene presenterer dem i lokalt format. På forsøksstadiet. XSL stilarkene er skrevet for IE5.0, som delvis følger XSL-versjonen fra desember 98. Fungerer ok til demoformål.
Eksempel på originalpost (USMARC): #008 980403I19381995sz eng d #035 -a1165-81660 #039 -b64 #040 -aSLB-cSLB #090 -aSLA Highsmith #100 1 -aHighsmith, Patricia #245 10-a[Nachlass Patricia Highsmith.-f1938-1995]-k[Ms.] #300 -aca. 50-fLaufmeter #506 -aDocuments are available for consultation only in the SLA Readiing #520 -aA: Literary works: typewritten manuscripts of various novels, including ...
Eksempel kodet i EAD <c01> <did><unitid encodinganalog = 'malvine_meta1.identifier'>1165-81660</unitid> <repository encodinganalog = 'malvine_meta1.rights.state_of_ownership'><corpname role = 'Original cataloging agency'>SLB</corpname><corpname role = 'Transcribing agency'>SLB</corpname></repository> <physloc encodinganalog = 'EXTRA.Physical_location' label = 'Shelfmark'>SLA Highsmith</physloc> <origination><persname encodinganalog = 'malvine_meta1.agent.author' role = 'Author' normal = 'Highsmith, Patricia'>Highsmith, Patricia</persname></origination> <unittitle encodinganalog = 'malvine_meta1.title'>Nachlass Patricia Highsmith.<unitdate encodinganalog = 'malvine_meta1.date_of_origin.present'>1938-1995</unitdate><genreform encodinganalog = 'malvine_meta1.content.genre' source = 'local' othersource = 'SLA'>Ms.</genreform></unittitle> <physdesc><dimensions encodinganalog = 'malvine_meta1.material_type.dimensions' unit = 'Laufmeter'>ca. 50</dimensions></physdesc> <abstract encodinganalog = 'malvine_meta1.content.description' label = 'Summary'>A: Literary works: typewritten manuscripts of various novels, including unpublished fragments of The Click of the Shutter. A large number of typewritten manuscripts of partly unpublished short stories and essays. Some 38 'cahiers' or literary notebooks.</abstract> <abstract encodinganalog = 'malvine_meta1.content.description' label = 'Summary'>A: A large collection of sketches and water colors by the author.</abstract>
Konverteringen En linje fra originalposten: #300 -aca. 50-fLaufmeter Regulært uttrykk i Perl: \#300\s+-a(.+)-f(.+) Oversettes til EAD koding: <physdesc><dimensions encodinganalog = 'malvine_meta1.material_type.dimensions' unit = ’$2’>ca. $1<\/dimensions><\/physdesc>
Vårt arbeid har ført til økt interesse for SGML og XML blant partnerne i MALVINE-prosjektet. XSL-stilark er godt egnet for våre formål. Konklusjon
Referanser HIT-senteret: http://www.hit.uib.no/ MALVINE-prosjektet: http://www.malvine.org Om EAD: http://lcweb.loc.gov/ead/ XML i MALVINE-prosjektet: http://helmer.hit.uib.no/malvine/EADpage.html