460 likes | 573 Views
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander. Large Aperture Gamma Ray Burst Observatory. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO. Rodrigo Torréns José Alejandro Torres Niño Luis Nuñez Noviembre, 2011.
E N D
Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Large Aperture Gamma Ray Burst Observatory Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Rodrigo TorrénsJosé Alejandro Torres Niño Luis Nuñez Noviembre, 2011 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Contenido Large Aperture Gamma Ray Burst Observatory • El problema de la ubicación, preservación y uso de colecciones de datos científicas • Tendencias en la colaboración científica • Herramientas que pueden ayudar a solucionar algunos de los problemas Hablaremossobre:
Los datosproducto de unainvestigacióncientífica Large Aperture Gamma Ray Burst Observatory Partamos de las preguntas básicas: • Los datos que yo necesito… existen? • Donde están? • Como los obtengo? La mayoria de los científicos se han planteado estas preguntas alguna vez
4 axiomas para la ciencia intensiva en datos Large Aperture Gamma Ray Burst Observatory Acceso • Global y abierto • Colecciones completas • Reservorios distribuidos (BD, repositorios de datos, datos en “la nube” ) • Preservación Interacción • Metadata • Servicios web de herramientas • Reutilización Flujo • Procesos • Curaduría • Gerencia y mantenimiento • Publicación Compartir • Estándares, XML esquemas, ontologías • Redes sociales • Minería de datos Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf
Problemas-retos a los que nos enfrentamos Large Aperture Gamma Ray Burst Observatory Tenemos que tener capacidades para… • Manejar volumen de datos generados actualmente • Preservarlos • Encontrarlos • Compartirlos, distribuirlos • Usarlos, reusarlos
Momento de publicación Contenidos de Información Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo Retiro o cambio de carrera del científico recolector Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida de registros restantes Tiempo …Problemas a los quenosenfrentamos Large Aperture Gamma Ray Burst Observatory Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo (Michener, 1997)
El problema del “diluvio” de datos. La era del Petabyte Large Aperture Gamma Ray Burst Observatory Volumen de datos… www.wired.com
Nuevasformas de colaboracióncientífica Large Aperture Gamma Ray Burst Observatory Ante estos retos, tenemos posibilidades y nuevas maneras de… • Producir datos, • de compartirlos (publicarlos), y… • de trabajar colaborativamente
Nuevasformas de colaboracióncientífica Large Aperture Gamma Ray Burst Observatory Frecuentemente o cada vez más escuchamos y hablamos de… • “ciberinfraestructura” • “e-ciencia” • “e-investigación” • “colaboracion ubicua” • “data-driven Science” • “computación grid” • “computación social” • “acceso abierto al conocimiento” …refiriendose a nuevas formas de producción y diseminación del conocimiento
e-ciencia Large Aperture Gamma Ray Burst Observatory • El termino e-ciencia es usado para representar la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf
Ejemplos de colecciones de datos: Large Aperture Gamma Ray Burst Observatory • Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.): • Datos del LHC generados en el CERN • Datos generados por las redes mundiales de sensores sísmicos • Estudios sobre cambios globales (GCMD-NASA) • Astronomía, los “telescopios virtuales” (Global Internet Telescope) • Banco de datos de Proteinas (PDB, Protein Data Bank) • Datos del genoma humano y de otras especies
Iniciativas de AccesoAbierto Large Aperture Gamma Ray Burst Observatory • A esto se unen las iniciativas por el uso sin restricciones de la información y datos: • Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives) • Movimiento Datos Libres (OD, Open Data) • Repositorios Institucionales y por disciplina (temáticos)
CERN LHC Ejemplos: -
Necesidad de usar tecnologías de información (TICs) Large Aperture Gamma Ray Burst Observatory Para… • Ubicar • Accesar • Recuperar • Compartir …datos La mayoría usa LA RED (la Web) para satisfacer estas necesidades
Large Aperture Gamma Ray Burst Observatory Un objetivoimportante Qué debemos hacer para lograr el… Uso secundario y a largo plazo de colecciones de datos científicos Se debe…Garantizar permanencia de los datos en el tiempo Poder ubicar y recuperar la información
Formación de Redes de colaboración entre científicos y entre usuarios de información Tecnologías de Información y Comunicaciones Uso de metadatos y estándares de intercambio de información Creación y mantenimiento de repositorios de datos Large Aperture Gamma Ray Burst Observatory Herramientas Herramientas organizativas y tecnológicas que pueden hacer esto posible:
¿Qué significa la palabra “metadatos”? a) b) c) Mc M D M2 M1 M D D D Metadatos como parte de los datos Metadatos externos al recurso de información Meta-metadatos (colecciones de metadatos) Large Aperture Gamma Ray Burst Observatory • " Datos sobre los datos " . • "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica"(J.K. Michener 1997).
¿Para qué “metadatos”? Large Aperture Gamma Ray Burst Observatory • Preguntasque se deberíanpoder responder usandometadatos: • Quedatos describe unacoleccion de datoscientíficos? • Quienprodujo la colección? • Porquéfuecreada la colección? • Como fuecreada la colección? • Quedatoscomponen la colección? • Cuanconfiables son los datos. Queproblemaspersisten en la colección? • Como alguienpuedeobtenerunacopia de la colección? • Quienescribio los metadatos?
¿Para qué “metadatos”? Large Aperture Gamma Ray Burst Observatory • El valor científico y económico de las colecciones de datos es muy grande • Para asegurar su uso posterior, la comunidad científica necesita acceso eficiente a estos datos • Los datos tienen que ser confiables y persistentes en el tiempo • La calidad de los datos debe poder probarse
¿Que hacer? Large Aperture Gamma Ray Burst Observatory • Tratar a los datos como si fueran una publicación científica tradicional • Edición • Agregación (documentación con metadatos) • Análisis • Revisión por pares • Publicación …para que sean útiles a los usuarios finales
Large Aperture Gamma Ray Burst Observatory Ejemplos de metadatos y de comunidades queusanmetadatos Documentación de datosgeoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy Muestradatos NBIIhttp://www.nbii.gov/
Large Aperture Gamma Ray Burst Observatory Ejemplos de metadatos y de comunidades que usan metadatos Documentación de datos geoespaciales (Interfaz a Clearinghouse FGDC y GCMD Data Documenter)
Large Aperture Gamma Ray Burst Observatory Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y ambientales más usados • FGDC-CSDGM. Content Standard for Digital Geospatial Metadata.Federal Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov] • FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov]. • Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la Tierra. [gcmd.gsfc.nasa.gov] • Darwin Core (DwC). Colecciones de Historia Natural. • Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos ecológicos.Base del estándar EML.[lternet.washington.edu] • Dublin Core. Estandar general de identificacion de objetos de información en Internet. [www.dublincore.org] • CCLRC Scientific metadata model (CSMD). study-data set orientated model
Repositorios Large Aperture Gamma Ray Burst Observatory • Almacenan y preservan la producción de una institución o de una disciplina científica. • Contienen información académica y científica. - Artículos de revista, tesis, congresos, informes, colecciones de datos, etc. • Compuestos de Metadatos + documentos. • Libre acceso a sus contenidos (open access), es la tendencia actual.
Repositorios institucionales Large Aperture Gamma Ray Burst Observatory • Incluyen los contenidos académicos de una institución (universidad, centro de investigación, etc.). Ejemplos: • CERN Document Server: http://cdsweb.cern.ch/ • Repositorio SABER-ULA: http://www.saber.ula.ve • Dspace@MIT: http://dspace.mit.edu
Repositorios temáticos Large Aperture Gamma Ray Burst Observatory • Incluyen los contenidos académicos de una disciplina o ámbito temático. Ejemplos: • E-LIS (biblioteconomía y documentación), • ArXiv (física), • Cogprints (psicología), • Repec (economía).
Repositorios temáticos Large Aperture Gamma Ray Burst Observatory
Repositorios de datos Large Aperture Gamma Ray Burst Observatory • Publican y preservan colecciones de datos • Organizados frecuentemente por disciplinas científicas como por ejemplo: • HEP, • Genómica • Datos geoespaciales, • Datos biológicos • Datos astronómicos • Datos gubernamentales
Plataforma Dspace Large Aperture Gamma Ray Burst Observatory • DSpace es una plataforma de software de Código Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos. www.dspace.org
¿Donde usan Dspace? Large Aperture Gamma Ray Burst Observatory www.dspace.org
Repositorios de datos con Dspace Large Aperture Gamma Ray Burst Observatory
Dificultades comunes Large Aperture Gamma Ray Burst Observatory • Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos • Poca disposición de los científicos para compartir los datos. • Poca receptividad o disposición para aportar metadatos que documenten las colecciones de datos. • Confusiones y reservas que tienen que ver con los derechos de propiedad, publicación y uso de los datos. • Dificultades (aún) con la conexión a internet (conectividad, velocidad) • Costos de los instrumentos de captura de datos • No existe la figura de “gerente local de información”, o es muy costoso tenerlos
El Futuro Large Aperture Gamma Ray Burst Observatory • Redes de gestión de conocimientos basadas en datos y metadatos • Herramientas analíticas "en-línea" con acceso a datos de red de científicos • Herramientas que facilitan la creación de diferentes formas de metadatos • Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones • Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids) • Por último…Comunidades y sociedades del conocimiento
A manera de conclusión para esta parte Large Aperture Gamma Ray Burst Observatory • El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos • Estas infraestructuras allanaran el camino para la e-ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46
Large Aperture Gamma Ray Burst Observatory LAGODSpace
Large Aperture Gamma Ray Burst Observatory LAGODSpace
Large Aperture Gamma Ray Burst Observatory LAGODSpace SAI Recolector de datos y Metadatos
Large Aperture Gamma Ray Burst Observatory LAGODSpace
Large Aperture Gamma Ray Burst Observatory LAGOVirtual
Large Aperture Gamma Ray Burst Observatory LAGOVirtual
Large Aperture Gamma Ray Burst Observatory • LAGODSpace (metadatos) Datos que describen Datos ??? ¿Donde esta?
Large Aperture Gamma Ray Burst Observatory LAGODSpace (metadatos)
Large Aperture Gamma Ray Burst Observatory • USO DE LAGODSpace
Large Aperture Gamma Ray Burst Observatory RedCLARA Beneficios, servicios ofrecidos, etc. • Financiación ????????? • Servicios Red de Alta Velocidad • Videoconferencias H.323 • Asociaciones • Capacitación • Visibilidad Necesidad