420 likes | 559 Views
Tema 5; XML en la descripción de recursos. Ricardo Eíto Brun Sevilla, 23-25 de octubre 2002. Introduction.
E N D
Tema 5;XML en la descripción de recursos Ricardo Eíto Brun Sevilla, 23-25 de octubre 2002
Introduction • Los formatos de marcas se han presentado como una alternativa/complemento a los sistemas de codificación de datos utilizados tradicionalmente por la comunidad bibliotecaria en la descripción de recursos • Desde mediados de los años 90 se han planteado distintas iniciativas en esta línea • El origen de estas iniciativas están distintas bibliotecas. Las iniciativas más importantes han sido lideradas por la Library of Congress
MARC y XML • Podemos señalar distintas líneas de trabajo: • Diseño de modelos alternativos para la descripción de recursos (Dublin Core) • Adaptación de los modelos “tradicionales” – MARC -, a los nuevos formatos Internet (xml) • El formato XML se ha presentado como una alternativa para representar y transferir registros MARC a través de Internet y facilitar su tratamiento automatizado
MARC y XML • Las ventajas de XML son: • XML ofrece un sistema de codificación más simple y fácil de procesar que el utilizado actualmente para registros MARC (2709) • XML se presenta como un formato “universal”, utilizado en cualquier tipo de aplicación, frente al sistema de codificación actual de MARC • XML elimina complejidad innecesaria para los desarrolladores • Se pretende evitar la “segregación” de MARC frente a otros formatos de metadatos Internet utilizados en los proyectos de “biblioteca electrónica”
MARC y XML • Al mismo tiempo, MARC presenta ventajas frente a los formatos de metadatos que se han propuesto para el “mundo Internet”, como Dublin Core: • Mayor capacidad expresiva • Soporte de más de 30 años por parte de la comunidad bibliotecaria y de la industria software especializado • Una semántica claramente definida, aceptada y adaptada a las distintas realidades nacionales • Cobertura a un amplio número de “formatos” y “tipos de información” (autoridades, datos bibliográficos, holdings, etc.)
MARC y XML • Resumiendo: • MARC es un formato que permite codificar y transmitir un gran número de datos de una forma estandarizada y fácilmente procesable • El resto de alternativas que se an propuesto para la descripción de recursos adaptadas a “Internet” no ofrecen la expresividad o el nivel de detalle necesario • Estas alternativas se encuentran en fase de desarrollo, y no podemos garantizar su permanencia en un futuro
MARC y XML • Resumiendo: • MARC no sólo es un estándar para facilitar el intercambio de información bibliográfica, • También se ha convertido en la base de los sistemas integrados de gestión bibliotecaria actuales
MARC y XML • Sin embargo, hay quien señala que MARC no es un formato “óptimo” para las necesidades actuales en lo referente a la descripción de recursos: • MARC es sumamente complejo, la descripción es costosa y lenta para el gran número de recursos que tenemos que describir • El creciente número de recursos a describir nos obliga a plantear sistemas de indización “descentralizados”, que no requieran una formación tan compleja como la requerida para trabajar con MARC, ni mecanismos de entrada de datos tan complejos
MARC y XML • Los partidarios de “alternativas a MARC”: • se basan más en la rapidez con que se podría describir los recursos, y • sacrifican la calidad y el detalle de la descripción de los recursos...
Adaptar MARC a Internet: primeras iniciativas • Las primera iniciativa de la LOC se remonta a 1992 con la inclusión del campo 856 (electronic location and access) en MARC • Este campo permitiría crear un enlace entre un registro bibliográfico y un recurso remoto disponible en formato electrónico • Proyectos como el OCLC Internet Cataloging (1994-1996) utilizaron este campo para codificar 5000 registros de recursos Internet • El proyecto CATRIONA (CATaloguing and Retrieval of Information Over Network Applications) también utilizó el 856
Adaptar MARC a Internet: primeras iniciativas • El campo 856 “contiene la información necesaria para localizar y acceder a un recurso electrónico [...] puede utilizarse en un registro bibliográfico de un recurso cuando éste o una parte del mismo esté disponible electrónicamente...” • El primer indicador “define el método de acceso al recurso electrónico. Si el recurso es accesible por más de un método, éste repite” • El segundo indicador “indica la relación entre el recurso electrónico identificado en el campo 856 y el documento descrito en el registro como un todo”
Adaptar MARC a Internet: primeras iniciativas • Los valores posibles para el primer indicador son: • # - no se proporciona información • 0 – correo electrónico • 1 – FTP • 2 – Telnet • 3 – Llamada telefónica • 4 – HTTP • 7 – Un método distinto al anterior, que se habrá indicado en el subcampo $2.
Adaptar MARC a Internet: primeras iniciativas • Los valores posibles para el segundo indicador son: • # - No se proporciona información • 0 – Recurso. La localización electrónica hace referencia al mismo recurso descrito en el registro como un todo. Es decir, el ítem representado por el registro bibliográfico es un recurso electrónico • 1 – versión del recurso. La localización electrónica hace referencia a la versión electrónica del recurso descrito en el registro. Es decir, el documento descrito mediante el registro no es electrónico, pero existe una versión en formato electrónico • 2 – Recurso relacionado • 8 – “no hay una visualización asociada”
Adaptar MARC a Internet: primeras iniciativas 245 10$aProceedings of the Seminar… 856 40$uhtp://www.loc.gov/seminar.html 245 00$aAnalyzing qualitative date$c/edited by… 856 40$uhtp://www.loc.gov/analyzing.html 245 00$aAmerican quarterly 856 41$uhtp://www.muse.edu/journals/amquarterly.htm 245 00$aDocumentos de D. Pedro Valverde… 856 42$3Indice$uhtp://www.bne.es/pedroValverde.pdf
Adaptar MARC a Internet: primeras iniciativas • SUBCAMPOS • $a – nombre del host de la localización electrónica • $b – número de acceso (dirección IP) • $c – información sobre la compresión • $d – ruta física • $f – nombre electrónico del fichero • $k – contraseña necesaria para acceder al recurso • $m – contacto para facilitar el acceso • $p – puerto • $u – URI o URL • $y – texto del enlace • $3 – Especificación de materiales
Adaptar MARC a Internet: primeras iniciativas • Una segunda iniciativa de la LOC consistió en adaptar MARC a SGML, iniciada en 1995 • El objetivo era crear una DTD que permitiese la conversión de registros MARC a SGML – y viceversa -, sin pérdida de información • Se diseñaron 2 DTDs, para datos bibliográficos / fondos y para autoridades / clasificación y una aplicación PERL para la conversión de MARC 2709 a MARC SGML y viceversa • Las DTD se publicaron en mayo 1996. La utilidad de conversión se inició en julio 1997. En enerp 1998 se hizo pública. • Posteriormente, estas DTDs se migraron a XML para adaptarlas al “nuevo escenario tecnológico”
Adaptar MARC a Internet: primeras iniciativas • El programa de conversión de MARC a SGML/XML utiliza PERL y nsgmls • Estas utilidades de libre distribución se pueden descargar de: • http://www.perl.com • http://www.jclark.com/sp • En el diseño de las DTD y utilidades de conversión participaron las empresasa Mulberry Technologies y ATLIS Consulting Group
Adaptar MARC a Internet: primeras iniciativas • Las DTD para XML y SGML contenían un elemento XML para cada campo y subcampo de MARC • Por ejemplo, para el elemento 245 MARC, en la DTD se incluía un elemento mrcb245, un mrcb245-b, mrcb245-c, etc. • Estos campos se agrupaban en otros elementos, como por ejemplo mrcb-title-and-title-related, mrcb-subject-access, etc. • Los campos de control variables – 008 – contaban con un elemento para cada “posición” o “ítem” del que contienen información, etc... • Esto hacía que la DTD y los registros fuesen muy largos • PRACTICA: Abrir con XML Spy el archivo mrcbxmlfile
Adaptar MARC a Internet: estado actual • El 5 de junio 2002, la LOC Network Development and MARC Standards Office publicó un esquema XML para codificar registros MARC21 • Este esquema, resultado del trabajo de la LOC, OCLC, RLG - y revisado por la NLM y la National Library of Canada – sustituía a la iniciativa anterior derivada de la DTD SGML • Este esquema está previsto que sirva para codificar cualquier tipo de registro MARC (bibliográfico, autoridades, etc.)
Adaptar MARC a Internet: estado actual • El nuevo esquema pretende ir más allá de un mero mecanismo de conversión, y así facilitar: • La representación de registros MARC existentes en formato XML • La representación de metadatos para facilitar el harvesting del proyecto OAI (Open Archives Initiative) • La descripción inicial de recursos utilizando MARC • La codificación de metadatos MARC que puedan ser “incluidos” como parte o junto a recursos de información disponibles en formato electrónico
Adaptar MARC a Internet: estado actual • El elemento raíz es collection, que tendrá un elemento record para cada registro • El elemento record contendrá: • un elemento no vacío leader para la cabecera, • Elementos no vacíos controlfield para cada campo de control y • Elementos no vacíos datafield para cada campo de datos • La cabecera se indica en un elemento leader • Los campos de control se indican con elementos controlfield. • Cada campo de control tendrá un atributo tag que recogerá su código (éste se indica mediante 3 dígitos). Entre sus etiquetas de inicio y de fin se escribirá su valor
Adaptar MARC a Internet: estado actual • Los campos se representan mediante elementos datafield • La etiqueta (nombre del campo) y los indicadores se escriben como valores de los atributos tag, ind1 y ind2 del elemento datafield • Los subcampos se tratan como elementos hijos – subfield - del elemento datafield correspondiente al campo. • El código del subcampo se escriben como valor del atributos code • El valor del subcampo se escribe entre las etiquetas de inicio y fin del elemento subfield • PRACTICA: Abrir el documento de ejemplo sandburg.xml para ver un ejemplo
Adaptar MARC a Internet: estado actual • La información que encontramos en MARC 2709 sobre longitud de campos y las posiciones de inicio del campo (el directorio) no se utilizan en el esquema xml • Las posiciones de la cabecera del registro que no son necesarias se mantienen, pero se dejan en blanco • Se trata de un esquema más fácilmente procesable y comprensible que la DTD anterior
Adaptar MARC a Internet: estado actual • El esquema XML forma parte de una iniciativa mayor – framework -, que incluye el desarrollo de distintas “aplicaciones”, utilidades e interfaces para permitir: • Transformaciones entre MARC (2709), MARC (xml) Dublin Core y MODS (Metadata Object Description Schema) forman parte de la iniciativa • Hojas de estilo para la presentación de la información XML como HTML
Adaptar MARC a Internet: estado actual • En el modelo propuesto se habla del esquema xml como “piedra angular” para representar los datos de una forma que sea fácilmente procesable por distintas aplicaciones “consumidoras” – xml consumers • Los XML consumers procesan los documentos xml codificados con el esquema anterior. Los “consumidores” incluyen distintos tipos de utilidades: • Transformación de MARC xml a otros formatos de metadatos • Presentación de registros MARC xml en un formato fácilmente legible (html, pdf, etc.) • Validación de documentos, extracción de datos, etc.
Adaptar MARC a Internet: estado actual • Entre las utilidades que se han diseñado a partir del esquema anterior, contamos con las siguientes: • MARC4J – conversión de MARC 2709 a xml • Hojas de estilo XSLT para convertir de MARC XML a MODS, Dublin Core y OAI MARC (Open Archives Initiative) • Hojas de estilo XSLT para presentar datos MARC en HTML
MARCXML – Prácticas codificación • Utilizando el esquema MARCXMLSlim.xsd y XML Spy, codifica el siguiente registro MARC:
MARCXML – Prácticas codificación • Utilizando el esquema MARCXMLSlim.xsd y XML Spy, codifica el siguiente registro MARC:
MARCXML – Prácticas codificación • Utilizando las utilidades de conversión, crea el registro COLLECTION.xml a formato MODS, y a las presentaciones HTML con etiquetas numéricas y con textos en inglés.
XMLMARC – Stanford University • XMLMARC es una iniciativa dirigida por Lane Medical Library en la Universidad de Stanford, en el ámbito de las bibliotecas digitales • La motivación: analizar la viabilidad de adaptar MARC a XML para facilitar la integración de distintas fuentes de información y descripciones de recursos • En diciembre 1999 publicaron una utilidad Java que convertía registros MARC 2709 a formato XML, de libre utilización. • El proyecto diseñó una DTD para codificar datos bibliográficos y de autoridades • Como parte del proyecto se convirtieron 250.000 registros MARC a XML • http://xmlmarc.stanford.edu
XMLMARC – Stanford University • El proyecto XMLMARC de Stanford sigue vivo • Próximamente se presentará XOBIS v1.0a (XML Organic Bibliographic Information Schema ) , un esquema XML para codificar datos bibliográficos que reemplazará al XMLMARC anteriormente usado en este proyecto • Se puede obtener información detallada de este formato en: http://xobis.stanford.edu . Un ejemplo de documento XML codificado según este esquema se encuentra en el archivo lanerecords.xml
XMLMARC – Stanford University • La estructura de un registro XOBIS sigue el siguiente modelo: • ControlData – metadatos acerca del registro propiamente dicho: fecha creación, tipo, etc. • Principal elements o Work element • Relationships
BiblioML • Este es otro proyecto que muestra el interés despertado por el lenguaje XML como mecanismo para codificar información bibliográfica y de autoridades UNIMARC • El proyecto subvencionado por el Ministère de la culture et de la communication, France, aparentemente está detenido • http://www.culture.fr/BiblioML/en/index.html
MODS (Metadata Object Description Schema) • Se trata de un proyecto reciente, liderado por la LOC americana • Consiste en un esquema para codificar metadatos e información bibliográfica utilizando XML • Se utilizan etiquetas alfanuméricas en lugar de numéricas, y en ciertos casos se agrupan elementos de MARC en un mismo elemento • De su mantenimiento se encarga la LOC NDMSO • Última versión disponible: 14 junio de 2002 – v1.2. Estable por un periodo de 6 meses • http://www.loc.gov/standards/mods
MODS (Metadata Object Description Schema) • MODS no nos indica cómo transferir registros MARC utilizando XML, sino que ofrece un mecanismo que permite describir recursos con XML utilizando un esquema que se sitúa a medio camino entre MARC y Dublin Core • Aparentemente, MODS es la opción que debería imponerse como sistema para la descripción de recursos en Internet • Es más sofisticado que DC • No es tan complejo como MARC • Es más compatible con MARC que otros esquemas (la pérdida de información en las transformaciones en menor)
MODS (Metadata Object Description Schema) • MODS define un conjunto de elementos que son un subconjunto del MARC21 Format for Bibliographic Data • En total se definen 20 elementos (cada uno de ellos con unos elementos hijos que matizan su semántica) • Todos los elementos, excepto dos, y atributos son opcionales • La LOC ha establecido un “mapeo” entre los elementos MODS y los campos y subcampos de MARC • Práctica: abrir el archivo mods99042030Book.xml y ver su estructura. • La conversión entre MARC 2709 y MODS siempre se hará mediante MARC XML; nunca directamente.
MODS (Metadata Object Description Schema) • Los principales elementos en MODS son: • titleInfo – es obligatorio. Contiene al menos un elemento hijo llamado title • name – correspondería al “encabezamiento”. Puede ser de persona, organización o conferencia.El tipo de encabezamiento se indica mediante un atributo type que aceptará los valores personal, corporate o conferencename puede incluir los elementos hijos: namePart, role, affiliation y displayForm • typeOfResource – tipo del recurso
MODS (Metadata Object Description Schema) • genre – género. No tiene elementos hijos. Sólo tiene un atributo authority que tomará el valor marc. Su valor se tomará de la lista disponible en la URL:http://www.loc.gov/marc/sourcecode/genre/ • publicationInfo – agrupa los datos sobre el “editor”, mediante los elementos hijos placeCode, place, publisher, dateIssued, dateCreated, edition, etc. • language – idioma del recurso • physicalDescription – descripción física del recurso. Incluye los elementos hijos: form, extent, digitalOrigin, etc. • abstract – resumen; puede apuntar a un recurso remoto
MODS (Metadata Object Description Schema) • tableOfContents – incluirá una URL que apunta a un recurso remoto con esta información • targetAudience – audiencia a la que va dirigida el contenido • note – para codificar notas. Puede apuntar a una nota disponible como un recurso externo mediante un hipervínculo • cartographics – para información cartográfica, contiene los elementos hijos coordenadas, escala y proyección • subject – temas de los que trata el recurso. Incluye los elementos hijos topic, geographic y temporal.
MODS (Metadata Object Description Schema) • Classification – código de clasificación según un esquema de clasificación que se indicará en el atributo authority de este elemento • relatedItem – permite relacionar elementos • Identifier – ID del recurso. Puede ser un isbn, issn, etc. Su tipo se indicará mediante un atributo type • Location – • accessConditions – • Extension • recordInfo – contiene los siguientes elementos hijos: recordCreationDate, recordChangeDate, recordIdentifier, etc.
Conclusiones • En los últimos 10 años se han lanzado distintas iniciativas para complementar / sustituir MARC con XML • El último modelo propuesto por la LOC parece más fiable, y probablemente tenga una mayor aceptación que la iniciativa de 1995 • MODS ofrece un esquema más completo que DC y más próximo a MARC • El hecho de estar promovido por la LOC puede ser un punto importante, aunque la experiencia de MARC SGML puede repetirse • Actualmente, falta una documentación detallada sobre cómo usar este nuevo esquema, para que pueda considerarse una alternativa real a DC