600 likes | 734 Views
Programa de formación. “De la publicación al acceso abierto a la producción científica en el área de la salud ” Tecnología e Interoperabilidad de repositorios y su implementación en proyectos OA relacionados con la Salud Pública. Instituto de Salud Carlos III
E N D
Programa de formación “De la publicación al acceso abierto a la producción científica en el área de la salud” Tecnología e Interoperabilidad de repositorios y su implementación en proyectos OA relacionados con la Salud Pública Instituto de Salud Carlos III Madrid. Del 28 de febrero al 2 de marzo. Alicia López Medina UNED
Programa de formación La Declaración de Berlín, 2003
Programa de formación • “Con el fin de hacer realidad la visión de una representación global y accesible del conocimiento, la futura Web tiene que ser sostenible, interactiva y transparente. El contenido y las herramientas de software deben ser libremente accesibles y compatibles” • “Una versión completa del trabajo […] se deposita […] en por lo menos un repositorio online, que utilice estándares técnicos adecuados […] que busque la implementación del acceso abierto […] interoperabilidad […]” Declaración de Berlín, 2003
Avanzando la investigación global de la salud a través de la tecnología y compartiendo los datos y el conocimiento Un mundo en el que es más rápido, más fácil y más barato encontrar medicinas y curar enfermedades. Para ser usados: Leer, procesar, visualizar, reutilizar, compartir, analizar, minería de datos, a través de disciplinas, en entornos de colaboración, en red, en acceso abierto Representación interactiva global, del conocimiento en la web (operable por las máquinas) Repositorios (“vía verde”) abiertos (interoperables) En todas las fases del ciclo completo de la investigación científica Los contenidosaccesibleslibremente, sin restricciones y de forma permanente a través de Internet
Programa de formación ¿Qué es un repositorio? • IBM: Los repositorios proporcionan un medio para organizar y gestionar contenidos de manera que puedan ser rápida y fácilmente intercambiados y compartidos • La definición de Herbert Van de Sompel (uno de los co-creadores del protocolo OAI-PMH): Un sistema en red que proporciona servicios referidos a una colección de objetos digitales • La biblioteca del Congreso Una herramienta para almacenar y gestionar información digital en una forma accesible.
Programa de formación Repositorio abierto (interoperable) (se refiere a una propiedad del propio sistema) “… que puede intercambiar procesos, servicios o datos con otros sistemas de manera que puedan trabajar juntos de forma eficiente” Repositorio de Acceso Abierto (se refiere a una propiedad de sus contenidos) ‘suscontenidosestánaccesibleslibremente, sin restricciones y de forma permanente a través de Internet para ser usados”
Programa de formación La interoperabilidad puede realizarse a varios niveles: • Interoperabilidad de los sistemas • Interoperabilidad de los datos • Interoperabilidad de las políticas, governanza.
Programa de formación Interoperabilidad de los sistemas Cuando los repositorios pueden intercambiar servicios y datos entre sí y con otros sistemas • Protocolo OAI-PMH: exposición de metadatos • Sword: depósito transparente • CRIS/CERIF: integración con el contexto de la investigación
Programa de formación • Open Archive Initiative (OAI) • La interoperabilidad de losrepositoriosrecibeunfuerte impulso conla Open ArchiveInitiative. • Susorígenesestán ligados almovimiento de AccesoAbierto. Uno de sus objetivos esdesarrollar e impulsarestándares de interoperabilidad que faciliten una eficiente búsqueda y visibilidad de laspublicaciones científicas distribuidasen diferentes repositorios, tanto institucionales como temáticos. • Esindependiente de cualquieraplicación • La Open ArchiveInitiative ha creadoun protocolo fundamental para conseguir unnivel básico de interoperabilidad entre losrepositorios: elprotocolo OAI-PMH
Programa de formación • El protocolo OAI-PMH • (Open ArchiveInitiative-Protocol for MetadataHarvesting) • Esun protocolo que permite a losrepositoriosexponersusmetadatos de manera que otros sistemas puedanrecolectarlos y agregarlos para construir nuevos y más eficientes y útilesservicios que los que podríaofrecer cada repositorio individualmente. • Proporciona funcionalidades que sonesenciales para laspropuestasdelmovimiento por elAccesoAbierto a laspublicaciones científicas • El protocolo OAI es “abierto” en el sentido de queproporcionaunainterfaz al proveedor de datos; no significanecesariamente “abierto” en el sentido de quepermite el accesolibre a la información a cualquiera.
Programa de formación • El depósitotransparente • No existeunainterfazestándarparatransferirobjetosdigitales entre repositorios • No se puededepositar en más de un repositorio con un único ‘click’ • No se puedeiniciar un proceso de depósitodesdefuera de un sistema de repositorio
Programa de formación • Sword - Introducción • (Simple Web-services Offering Repository Deposit) • Un protocolo para depositar objetos digitales en lugares diferentes • Proyecto financiado por JISC iniciado en 2007 • Creado por encima del protocolo Atom Publishing Protocol (APP o ATOMPUB)
Programa de formación • Sword– Casos de uso • Depositardesdeunaherramienta de Escritorio en línea • Depósitomúltiple: en un repositorioinstitucional, en un repositorio de un financiador (mandato) y en un repositoriotemático con una sola acción • Depósitoautomáticodesdeunamáquina, porejemplodesdeunamáquina de laboratorio • Depositarlo en OJS y en el repositorio • Migración/transferencia, porejemplo a un servicio de preservación • Depósitomediado, porejemplopor un bibliotecario, a repositoriosadicionales.
Programa de formación CRIS • Gestión del contexto de la investigación • CERIF Data Model (enriquecido semánticamente) RI • Gestión del contenido de la investigación Solapamiento de datos, actores, unidades Peligro de duplicaresfuerzos Fragmentación, descontextualización de la información
Programa de formación La interoperabilidad de los DATOS: la representación virtual global del conocimiento DATOS: literatura, datos en bruto, simulaciones, objetos culturales… la representación del conocimiento humano Abiertos: en “acceso abierto”, manipulables por máquinas, agnósticos respecto a los dispositivos, en formatos abiertos
Programa de formación E-ciencia/e-investigación • Nuevas formas y métodos de investigación gracias a la aparición de herramientas e infraestructuras • Data deluge (Hey & Threfethen 2003) “More digital data will be produce in the next 5 years than in whole human history” (Australian DEST ) • Uno de los retos que la e-Ciencia pretende abordar es la integración de datos. • Data management es un componente crucial de la e-Infraestructura
Programa de formación DATOS Todas las publicaciones en el campo de las ciencias empíricas se basan en datos Conforme la investigación médica se vuelve más compleja y el público espera más y más de la medicina y la ciencia, el artículo ha dejado de ser el final de la historia. Cada vez más y con razón, se considera que el artículo científico es como una instantánea de la investigación, superpuesta por la interpretación de su análisis por los autores y el resultado fundamental de la investigación son los datos brutos en sí.
Programa de formación Repositorios de Datos Las mismas funciones que un repositorio institucional o temático, pero además… • Tamaños enormes en casos de GRID datasets • Control de Acceso • Visualizaciones • Análisis • Minería de datos • Anotación • Temas legales de creación, acceso y publicación • Preservación
Protein Data Bank (PDB) es el único repositorio en todo el mundo de información acerca de las estructuras 3D de las grandes moléculas biológicas, como proteínas y ácidos nucleicos.. Los usuarios pueden realizar búsquedas simples y avanzadas basadas en las anotaciones correspondientes a la secuencia, estructura y función. Estas moléculas se visualizan, son descargadas y analizadas por los usuarios que van desde estudiantes a los científicos especializados.
Programa de formación “A medida que avanzamos hacia la comprensión de la biología, el acceso a grandes conjuntos de datos de muchos tipos diferentes se ha convertido en crucial. Sin embargo al mismo tiempo la revolución de alto rendimiento también amenaza con ahogarnos en los datos. Hay una continua y creciente necesidad de recopilar, almacenar y proteger toda esta información de manera que permitan su recuperación eficiente y la explotación. El Instituto Europeo de Bioinformática es uno de los pocos lugares en el mundo que tiene los recursos y experiencia para cumplir con esta importante tarea.” [About Us]
Global Inititative on Sharing Avian Influenza Data (GISAID) Los datos se depositan en las tres bases de datos públicas que participan en el proyecto (EMBL, DDBJ and GenBank) tan pronto como sea posible después del análisis y validación, en un plazo máximo de seis meses "Nuestro entendimiento es que el progreso científico será más rápido e innovador si se dispone de datos fácilmente accesibles a todos los investigadores en las comunidades que investigan la gripe, crean herramientas de diagnóstico, tratamiento y prevención " La propagación mundial de la gripe aviar H5N1 exigía que los científicos de diferentes campos de experiencia tuvieran pleno acceso a la secuencia genética completa, y a los datos clínicos y epidemiológicos de los animales y el virus de las cepas humanas. Ilaria Capua, Berlin 5 Open Access http://hdl.handle.net/10760/10882
“Compartir los datos conduce al progreso de la enfermedad de Alzheimer” • “Diferentes personas, usando diferentes métodos, en diferentes áreas, en diferentes lugares, estaban obteniendo diferentes resultados, lo cual no es extraño. Lo que se necesitaba era poner a trabajar a todos juntos y obtener un data set común” • Alzheimer’s Disease Neuroimaging Initiative, , un proyecto de colaboración para encontrar los marcadores biológicos que muestran la progresión de la enfermedad de Alzheimer en el cerebro humano. La clave es compartir todos los datos, permitiendo la búsqueda de inmediato - "a disposición de cualquiera con una computadora en cualquier parte del mundo” El esfuerzo ha producido "una gran cantidad de trabajos científicos sobre el diagnóstico precoz de la enfermedad de Alzheimer utilizando métodos como la tomografía PET y pruebas de líquido espinal. Más de 100 estudios en marcha para probar medicamentos que puedan disminuir o detener la enfermedad. "La colaboración se ha convertido en un " modelo para esfuerzos similares contra la enfermedad de Parkinson. "
Programa de formación ACCESO ABIERTO A LOS DATOS Nuevas oportunidades para la investigación • “GenBank” y “Protein Structure Database” son dos ejemplos excepcionalmente existosos: “El éxito del Proyecto Genoma se debe en gran parte al hecho de que todas las secuencias de DNA publicadas han estado en acceso abierto durante los últimos 20 años. Si hubiera que haber obtenido las secuencias mediante el proceso tradicional en que se publican los trabajos científicos, no habría habido proyecto genoma” (Patrick Brown 2004). • Otro ejemplo es el hecho de que usando los DNA históricos, datos medioambientales y otros datos, ha sido posible encontrar patrones de distribución del cólera que de otro modo no hubieran podido ser detectados
Programa de formación Sobrecarga cognitiva • “Huntington” en “Entrez Web” + 6.000 art. + 450 secuencias de genes + 200 secuencias de proteínas + 55.000 perfiles de expresión y abundancia molecular • Complejidad del cuerpo de conocimiento: relaciones, consecuencias, inferencias • La investigación translacional, el esfuerzo de acoplar los resultados de la investigación básica para aplicaciones clínicas, depende de la capacidad efectiva de responder a preguntas usando información que abarca múltiples disciplinas y sistemas. • Lo que estamos viendo es los límites de la mente humana en relación con la información. Tenemos que utilizar estrategias de informática y estrategias de gestión automática de datos para complementar nuestras mentes y poner todo eso en un marco que pueden manejar nuestras mentes.
Programa de formación La oportunidad de Internet…
Programa de formación La herramientas biocomputacionales, un arma poderosa en la lucha contra las enfermedades raras ¿Qué son las herramientas biocomputacionales? Son las herramientas que nos permiten capturar de forma automatizada la información biológica que necesitamos. Para ello, hemos desarrollado un sistema de integración de valores biológicos procedentes de distintos bancos de datos creando un lenguaje propio en la web semántica, lo que se ha dado en llamar la web 3.0, de manera que una vez establecidas las relaciones entre los distintos conceptos biológicos introducidos, el sistema de forma automática es capaz de encontrar información e incluso de responder a preguntas relativamente complejas. ¿Cómo aplica su grupo toda esta tecnología en la investigación de las enfermedades raras?Se comienza con la aplicación de una herramienta, que hemos desarrollado, de captura y predicción de estructuras proteicas. Este paso nos resulta muy útil para facilitar el poder realizar con posterioridad, modelos de proteínas de las que se conocen mutaciones que han provocado las enfermedades raras que estudiamos. Una vez concluida esta fase, a partir de la información que hemos obtenido sobre las proteínas que nos interesa estudiar, podemos llevar acabo, mediante el procesador, los pasos siguientes en los que optimizamos los valores hallados y éste nos presenta simulaciones de la dinámica molecular. Una dinámica que va a permitir explicar el comportamiento de las proteínas tanto nativas como las mutadas. A partir de los cuales, podremos de nuevo simular las consecuencias sobre otras vías metabólicas y estudiar los efectos que esos cambios producen en las propiedades de interacción de la proteína con su ligando, o buscar y/o diseñar inhibidores o activadores de las reacciones, en definitiva nuevos moduladores de su actividad. Grupo Bases Moleculares de la Proliferación Celular. Dpto. Biología Molecular y Bioquímica de la Facultad de Ciencias, Unidad 74 del Centro de Investigación Biomédica en Red de Enfermedades Raras (CIBER-ER), del Instituto de Salud Carlos III y al Ministerio de Ciencia e Innovación.
Programa de formación La web semántica • La web semántica es la próxima generación de Internet. • La idea de la web semántica es hacer el contenido de la web comprensible para máquinas añadiéndoles una descripción formal y significativa. • Permite a las comunidades de usuarios colocar contenido comprensible por la máquina en la web que así puede ser compartido y procesado tanto por personas como por herramientas automatizadas. • Es posible la integración y la reutilización de la información en nuevas aplicaciones imprevisibles y dominios La visión de la web semántica: “Open Linked Data”
Programa de formación Los pilares de la web semántica • Uniform Resource Identifiers (URIs) • The Web Ontology Language (OWL) • The Resource Description Framework (RDF) • XML
Programa de formación XML • Conjunto extensible de etiquetas • Orientado a contenido • Infraestructura de datos estándar • Permite diferentes presentaciones HTML • Conjunto de etiquetas fijo • Orientado a la presentación • Una única presentación
Programa de formación URIS: Identificadorespersistentes autor Organización Objetos (artículos, pero también, proteínas, moléculas…) Repositorio
Programa de formación RDF Triplete: sujeto-predicado-objeto <URI: algo> <está relacionado con> >URI: algo> Es la sintaxis para “decir” cosas en la web sobre cosas web, de forma comprensible para la máquina.
Programa de formación Ontologías <URI: colágeno> <es parte de> >URI: proteínas> Vocabularios controlados y estructurados que permiten a las máquinas comprender y razonar
Programa de formación Ejemplos de ontologías • Basic Formal Ontology (BFO) • Common Anatomy Reference Ontology (CARO) • Environment Ontology (EnvO) • Foundational Model of Anatomy (FMA) • Infectious Disease Ontology (IDO) • Ontology for Biomedical Investigations (OBI) • Ontology for Clinical Investigations (OCI) • Phenotypic Quality Ontology (PATO) • Relation Ontology (RO)
Programa de formación Muchos tipos de datos en muchos tipos de silos • Lab / pathology data • Electronic Health Record data • Clinical trial data • Patient histories • Medical imaging • Microarray data • Protein chip data • Flow cytometry • Mass spec • Genotype / SNP data
Programa de formación • Las ontologías facilitan la recuperación de la información: • brain 20 • hindbrain 15 • Rhombomere10 • Interrogación “brain” sin ontología 20 • Interrogación “brain” con ontología 45 • Y permiten a las máquinas “razonar”
Programa de formación • El corpus XML de artículos a texto completo de BioMed Central and PubMed Central se puede descargar libremente • BioMed Central ya expone los registros de todos los artículos en RDF
Programa de formación El nuevo objeto científico
Programa de formación Es necesario hacer explícitas para las máquinas las relaciones (agregaciones) entre los objetos en la web Cornell/LANL Pathways Project
Programa de formación • Aproximaciones potenciales alternativas: • OAI-ORE (Object Reuse and Exchange) • Topic Maps • Linked Data (RDF)
Programa de formación • OAI-ORE: Open Archive Initiative-Open Reuse and Exchange: http://www.openarchives.org/ore/ • OAI-ORE es un nuevoesfuerzo de interoperabilidad de la OAI • Su objetivo son los Objetoscomplejos (agregaciones) en la web • Su ámbitoesmásamplioque el ámbito de los repositorios • Open Archives Initiative Object Reuse and Exchange (OAI-ORE) define estándarespara la descripción e intercambio de agregaciones de los recursos en la web. El objetivo de estosestándaresesexponer el contenido de estasagregaciones a aplicacionesquesoportan la creación, el depósito, intercambiovisualización, reutilización y preservación de contenidosdigitales.