450 likes | 601 Views
UNIVERSITAT DE BARCELONA. Metadatos OAI-PMH. Josep-Manuel Rodríguez-Gairín rodriguez.gairin@ub.edu Màster Gestió Continguts Digitals 2009-2010. OAI-PMH. es un protocolo basado en HTTP diseñado para distribuir, recolectar, y federar metadatos.
E N D
UNIVERSITAT DE BARCELONA Metadatos OAI-PMH Josep-Manuel Rodríguez-Gairín rodriguez.gairin@ub.edu Màster Gestió Continguts Digitals 2009-2010
OAI-PMH • es un protocolo basado en HTTP diseñado para distribuir, recolectar, y federar metadatos. • El protocolo utiliza XML tanto en el transporte como en la codificación de los datos. Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
OAI-PMH • Actualmente se encuentra en la versión 2.0 • http://www.openarchives.org/OAI/openarchivesprotocol.html Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Los spiders o robots • Recogen los datos • De todo tipo de fuentes • Los indexan de manera automática • punto común de consulta • Los resultados son relevantes Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
DATA PROVIDERS SERVICE PROVIDER Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Los proveedores de servicios • Recogen los metadatos • registrados de manera manual • en fuentes concretas (data providers) • punto común de consulta • Los resultados son relevantes Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de datos • Bases de datos de imágenes • http://mdc.cbuc.cat Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de datos • Bases de datos de imágenes • http://mdc.cbuc.cat • Depósitos o repositorios • Temáticos http://eprints.rclis.org/ • Institucionales http://www.ucm.es/BUCM/servicios/6358.php Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de datos • Bases de datos de imágenes • http://mdc.cbuc.cat • Depósitos o repositorios • Temáticos http://eprints.rclis.org/ • Institucionales http://www.ucm.es/BUCM/servicios/6358.php • Directorios (http://www.directorioexit.info) Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de datos • Bases de datos de imágenes • http://mdc.cbuc.cat • Depósitos o repositorios • Temáticos http://eprints.rclis.org/ • Institucionales http://www.ucm.es/BUCM/servicios/6358.php • Directorios (http://www.directorioexit.info) • Agregadores (http://www.temaria.net) Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Proveedores de servicios • Nacionales • HISPANAO (ROAI): http://roai.mcu.es/es/inicio/inicio.cmd • E-revistas : http://www.erevistas.csic.es/ • Universia : http://biblioteca.universia.net/ • Internacionales • OAISTER: http://oaister.worldcat.org/ • Temáticos Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
¿Cómo funciona el protocolo? • Conversación entre provider y harvester • A través de una conexión Web (port 80) • La pregunta se envía en la URL (GET) • La respuesta se recibe en XML Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Verbos • Las preguntas tienen 6 verbos que se envian en la URL • Identify • ListMetadataFormats • ListSets • ListIdentifiers • ListRecords • GetRecord Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Hola! ¿Puedes decirme con quién estoy hablando? http://www.temaria.net/metadatos.php?verb=Identify Hola! Yo soy Temaria, estoy en la URL…., mi administrador es ….. Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="temaria.xsl" ?> <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.o <responseDate>2007-09-06T17:13:48Z</responseDate> <request metadataPrefix="oai_dc" verb="Identify">http://www.temaria.net/metadatos.php</request> <Identify> <repositoryName>Temaria: rev digitales de biblioteconomia documentación</repositoryName> <baseURL>http://temaria.net/metadatos.php</baseURL> <protocolVersion>2.0</protocolVersion> <adminEmail>rodriguez.gairin@ub.edu</adminEmail> <earliestDatestamp>1976-01-01</earliestDatestamp> <deletedRecord>persistent</deletedRecord> <granularity>YYYY-MM-DD</granularity> <compression>deflate</compression> <description> <oai-identifier xmlns="http://www.openarchives.org/OAI...................> <scheme>oai</scheme> <repositoryIdentifier>temaria.net</repositoryIdentifier> <delimiter>:</delimiter> <sampleIdentifier>oai:temaria.net:1</sampleIdentifier> </oai-identifier> </description> </Identify> </OAI-PMH> Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Perfecto! ¿Puedes decirme qué formatos de metadatos puedes enviarme? http://www.temaria.net/metadatos.php?verb=ListMetadataFormats Puedo darte los metadatos en formato Dublin Core Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="temaria.xsl" ?> <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"> <responseDate>2007-09-06T17:24:10Z</responseDate> <request metadataPrefix="oai_dc" verb="ListMetadataFormats">http://www.temaria.net/metadatos.php</request> <ListMetadataFormats> <metadataFormat> <metadataPrefix>oai_dc</metadataPrefix> <schema>http://www.openarchives.org/OAI/2.0/oai_dc.xsd</schema> <metadataNamespace>http://www.openarchives.org/OAI/2.0/oai_dc/</metadataNamespace> </metadataFormat> </ListMetadataFormats> </OAI-PMH> Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Muy bien, ¡puedo recolectar DC! ¿Puedes decirme si tienes la información agrupada en conjuntos? http://www.temaria.net/metadatos.php?verb=ListSets Tengo ocho conjuntos identificados como 1697-7904 (anales de documentación)……. Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="temaria.xsl" ?> <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"> <responseDate>2007-09-06T17:26:40Z</responseDate> <request metadataPrefix="oai_dc" verb="ListSets">http://www.temaria.net/metadatos.php</request> <ListSets> <set> <setSpec>1697-7904</setSpec> <setName>Anales de documentación</setName> </set> <set> <setSpec>1885-0685</setSpec> <setName>Bibliodoc: anuari de biblioteconomia, documentació i informació</setName> </set> ……………………………………………… <set> <setSpec>1136-7679</setSpec> <setName>Revista TK</setName> </set> </ListSets> </OAI-PMH> Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Me interesan los Anales de Documentación. Ya los recolecté en Enero. ¿Puedes enviarme los nuevos desde entonces? http://www.temaria.net/metadatos.php?verb=ListRecords&metadataPrefix=oai_dc&from=2007-02-01 Aquí los tienes….. Te envio 25, pideme más si quieres. Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<?xml version="1.0" encoding="UTF-8"?> <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://................."> <responseDate>2007-09-06T17:56:01Z</responseDate> <request from="2007-02-01" metadataPrefix="oai_dc" verb="ListRecords">http://www.temaria……”> <ListRecords> <record> <header> <identifier>oai:temaria.net:2422</identifier> <datestamp>2007-07-31 19:19:05</datestamp><setSpec>1575-5886</setSpec> </header> <metadata> <oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" ……………"> <dc:title>Usuaris, necessitats i serveis : experiencia de la Biblioteca de Terrassa</dc:title> <dc:creator>Gental Morral, Maria</dc:creator> <dc:subject>Bibliotecas municipales | Servicios de extensión bibliotecaria | ……</dc:subject> <dc:description>En aquest article es presenta l'actuació de la Biblioteca del Dist…….”> <dc:publisher>Univ. de Barcelona. Facultat Biblioteconomia i Documentació</dc:publisher> <dc:date>2007-06</dc:date> <dc:type>Text.Article</dc:type> <dc:format>text/html</dc:format> <dc:identifier>http://www2.ub.edu/bid/consulta_artic……..18gental.htm</dc:identifier> <dc:source>BiD: de biblioteconomia i documentació, núm. 18 (juny 2007)</dc:source> <dc:language>cat</dc:language> <dc:relation>1575-5886</dc:relation> <dc:rights>Universitat de Barcelona. Facultat de Biblioteconomia i Documentació</dc:rights> </oai_dc:dc> </metadata> ………………………….….. Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
<dc:source>Anales de documentación, núm. 10 (2007), p. 429-450.</dc:source> <dc:language>spa</dc:language> <dc:relation>1697-7904</dc:relation> <dc:rights>Universidad de Murcia. Facultad de Comunicación y Documentación</dc:rights> </oai_dc:dc> </metadata> </record> <resumptionToken>25::2007-07-31::::::25</resumptionToken> </ListRecords> </OAI-PMH> Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Si, quiero más registros. ¿Puedes enviarme desde ese punto? http://www.temaria.net/metadatos.php?verb=ListRecords&ResumptionToken=25::2007-07-31::::::25 Aquí los tienes….. Te envio otros 25, pideme más si quieres. Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Muchas gracias ! Los incorporo a mi base de datos. Hasta la próxima! Esto es una licencia ficticia….. Los servidores no tienen porqué ser amables entre ellos y se despiden fríamente cortando la comunicación Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Problemas • Insuficiencia del DC para codificar determinados tipos de documentos • Se usaran otros conjuntos como • Prism (artículos de revista) • Vcard (nombres de persona) • Duplicidades Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Problemas • Estandarización de contenidos • Autores • Library of Congress Authorities • IraLIS (http://www.iralis.org) • Instituciones • Propuesta FECYT • http://biblioteca.unex.es/PDF/nombre_autor.pdf • Materias Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Programas disponibles • Como data provider • Gestión de imágenes • ContentDM http://www.dimema.com/ • FEDORA http://www.fedora-commons.org/ • Repositorios • Dspace http://www.dspace.org/ • Eprints http://www.eprints.org Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Programas disponibles • Como service provider • PKP Open Archives Harvester http://pkp.sfu.ca/?q=harvester Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu
Prácticas • Crear un documento ficticio • http://pdos.csail.mit.edu/scigen/ • Entrarlo en dos repositorios • DSpace http://ignucius.bd.ub.es:8180/dspace/ • Eprints http://eprints3.bd.ub.es/ • Recolectarlos • http://ignucius.bd.ub.es/harvester Màster Gestió Continguts Digitals Josep Manuel Rodríguez Gairín rodriguez.gairin@ub.edu