1 / 45

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander. Large Aperture Gamma Ray Burst Observatory. Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO. Rodrigo Torréns José Alejandro Torres Niño Luis Nuñez Noviembre, 2011.

Download Presentation

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Large Aperture Gamma Ray Burst Observatory Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Rodrigo TorrénsJosé Alejandro Torres Niño Luis Nuñez Noviembre, 2011 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida

  2. Contenido Large Aperture Gamma Ray Burst Observatory • El problema de la ubicación, preservación y uso de colecciones de datos científicas • Tendencias en la colaboración científica • Herramientas que pueden ayudar a solucionar algunos de los problemas Hablaremossobre:

  3. Los datosproducto de unainvestigacióncientífica Large Aperture Gamma Ray Burst Observatory Partamos de las preguntas básicas: • Los datos que yo necesito… existen? • Donde están? • Como los obtengo? La mayoria de los científicos se han planteado estas preguntas alguna vez

  4. 4 axiomas para la ciencia intensiva en datos Large Aperture Gamma Ray Burst Observatory Acceso • Global y abierto • Colecciones completas • Reservorios distribuidos (BD, repositorios de datos, datos en “la nube” ) • Preservación Interacción • Metadata • Servicios web de herramientas • Reutilización Flujo • Procesos • Curaduría • Gerencia y mantenimiento • Publicación Compartir • Estándares, XML esquemas, ontologías • Redes sociales • Minería de datos Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf

  5. Problemas-retos a los que nos enfrentamos Large Aperture Gamma Ray Burst Observatory Tenemos que tener capacidades para… • Manejar volumen de datos generados actualmente • Preservarlos • Encontrarlos • Compartirlos, distribuirlos • Usarlos, reusarlos

  6. Momento de publicación Contenidos de Información Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo Retiro o cambio de carrera del científico recolector Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida de registros restantes Tiempo …Problemas a los quenosenfrentamos Large Aperture Gamma Ray Burst Observatory Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo (Michener, 1997)

  7. El problema del “diluvio” de datos. La era del Petabyte Large Aperture Gamma Ray Burst Observatory Volumen de datos… www.wired.com

  8. Nuevasformas de colaboracióncientífica Large Aperture Gamma Ray Burst Observatory Ante estos retos, tenemos posibilidades y nuevas maneras de… • Producir datos, • de compartirlos (publicarlos), y… • de trabajar colaborativamente

  9. Nuevasformas de colaboracióncientífica Large Aperture Gamma Ray Burst Observatory Frecuentemente o cada vez más escuchamos y hablamos de… • “ciberinfraestructura” • “e-ciencia” • “e-investigación” • “colaboracion ubicua” • “data-driven Science” • “computación grid” • “computación social” • “acceso abierto al conocimiento” …refiriendose a nuevas formas de producción y diseminación del conocimiento

  10. e-ciencia Large Aperture Gamma Ray Burst Observatory • El termino e-ciencia es usado para representar la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf

  11. Ejemplos de colecciones de datos: Large Aperture Gamma Ray Burst Observatory • Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.): • Datos del LHC generados en el CERN • Datos generados por las redes mundiales de sensores sísmicos • Estudios sobre cambios globales (GCMD-NASA) • Astronomía, los “telescopios virtuales” (Global Internet Telescope) • Banco de datos de Proteinas (PDB, Protein Data Bank) • Datos del genoma humano y de otras especies

  12. Iniciativas de AccesoAbierto Large Aperture Gamma Ray Burst Observatory • A esto se unen las iniciativas por el uso sin restricciones de la información y datos: • Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives) • Movimiento Datos Libres (OD, Open Data) • Repositorios Institucionales y por disciplina (temáticos)

  13. CERN LHC Ejemplos: -

  14. Necesidad de usar tecnologías de información (TICs) Large Aperture Gamma Ray Burst Observatory Para… • Ubicar • Accesar • Recuperar • Compartir …datos La mayoría usa LA RED (la Web) para satisfacer estas necesidades

  15. Large Aperture Gamma Ray Burst Observatory Un objetivoimportante Qué debemos hacer para lograr el… Uso secundario y a largo plazo de colecciones de datos científicos Se debe…Garantizar permanencia de los datos en el tiempo Poder ubicar y recuperar la información

  16. Formación de Redes de colaboración entre científicos y entre usuarios de información Tecnologías de Información y Comunicaciones Uso de metadatos y estándares de intercambio de información Creación y mantenimiento de repositorios de datos Large Aperture Gamma Ray Burst Observatory Herramientas Herramientas organizativas y tecnológicas que pueden hacer esto posible:

  17. ¿Qué significa la palabra “metadatos”? a) b) c) Mc M D M2 M1 M D D D Metadatos como parte de los datos Metadatos externos al recurso de información Meta-metadatos (colecciones de metadatos) Large Aperture Gamma Ray Burst Observatory • " Datos sobre los datos " . • "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica"(J.K. Michener 1997).

  18. ¿Para qué “metadatos”? Large Aperture Gamma Ray Burst Observatory • Preguntasque se deberíanpoder responder usandometadatos: • Quedatos describe unacoleccion de datoscientíficos? • Quienprodujo la colección? • Porquéfuecreada la colección? • Como fuecreada la colección? • Quedatoscomponen la colección? • Cuanconfiables son los datos. Queproblemaspersisten en la colección? • Como alguienpuedeobtenerunacopia de la colección? • Quienescribio los metadatos?

  19. ¿Para qué “metadatos”? Large Aperture Gamma Ray Burst Observatory • El valor científico y económico de las colecciones de datos es muy grande • Para asegurar su uso posterior, la comunidad científica necesita acceso eficiente a estos datos • Los datos tienen que ser confiables y persistentes en el tiempo • La calidad de los datos debe poder probarse

  20. ¿Que hacer? Large Aperture Gamma Ray Burst Observatory • Tratar a los datos como si fueran una publicación científica tradicional • Edición • Agregación (documentación con metadatos) • Análisis • Revisión por pares • Publicación …para que sean útiles a los usuarios finales

  21. Large Aperture Gamma Ray Burst Observatory Ejemplos de metadatos y de comunidades queusanmetadatos Documentación de datosgeoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy Muestradatos NBIIhttp://www.nbii.gov/

  22. Large Aperture Gamma Ray Burst Observatory Ejemplos de metadatos y de comunidades que usan metadatos Documentación de datos geoespaciales (Interfaz a Clearinghouse FGDC y GCMD Data Documenter)

  23. Large Aperture Gamma Ray Burst Observatory Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y ambientales más usados • FGDC-CSDGM. Content Standard for Digital Geospatial Metadata.Federal Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov] • FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov]. • Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la Tierra. [gcmd.gsfc.nasa.gov] • Darwin Core (DwC). Colecciones de Historia Natural. • Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos ecológicos.Base del estándar EML.[lternet.washington.edu] • Dublin Core. Estandar general de identificacion de objetos de información en Internet. [www.dublincore.org] • CCLRC Scientific metadata model (CSMD). study-data set orientated model

  24. Repositorios Large Aperture Gamma Ray Burst Observatory • Almacenan y preservan la producción de una institución o de una disciplina científica. • Contienen información académica y científica. - Artículos de revista, tesis, congresos, informes, colecciones de datos, etc. • Compuestos de Metadatos + documentos. • Libre acceso a sus contenidos (open access), es la tendencia actual.

  25. Repositorios institucionales Large Aperture Gamma Ray Burst Observatory • Incluyen los contenidos académicos de una institución (universidad, centro de investigación, etc.). Ejemplos: • CERN Document Server: http://cdsweb.cern.ch/ • Repositorio SABER-ULA: http://www.saber.ula.ve • Dspace@MIT: http://dspace.mit.edu

  26. Repositorios temáticos Large Aperture Gamma Ray Burst Observatory • Incluyen los contenidos académicos de una disciplina o ámbito temático. Ejemplos: • E-LIS (biblioteconomía y documentación), • ArXiv (física), • Cogprints (psicología), • Repec (economía).

  27. Repositorios temáticos Large Aperture Gamma Ray Burst Observatory

  28. Repositorios de datos Large Aperture Gamma Ray Burst Observatory • Publican y preservan colecciones de datos • Organizados frecuentemente por disciplinas científicas como por ejemplo: • HEP, • Genómica • Datos geoespaciales, • Datos biológicos • Datos astronómicos • Datos gubernamentales

  29. Plataforma Dspace Large Aperture Gamma Ray Burst Observatory • DSpace es una plataforma de software de Código Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos. www.dspace.org

  30. ¿Donde usan Dspace? Large Aperture Gamma Ray Burst Observatory www.dspace.org

  31. Repositorios de datos con Dspace Large Aperture Gamma Ray Burst Observatory

  32. Dificultades comunes Large Aperture Gamma Ray Burst Observatory • Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos • Poca disposición de los científicos para compartir los datos. • Poca receptividad o disposición para aportar metadatos que documenten las colecciones de datos. • Confusiones y reservas que tienen que ver con los derechos de propiedad, publicación y uso de los datos. • Dificultades (aún) con la conexión a internet (conectividad, velocidad) • Costos de los instrumentos de captura de datos • No existe la figura de “gerente local de información”, o es muy costoso tenerlos

  33. El Futuro Large Aperture Gamma Ray Burst Observatory • Redes de gestión de conocimientos basadas en datos y metadatos • Herramientas analíticas "en-línea" con acceso a datos de red de científicos • Herramientas que facilitan la creación de diferentes formas de metadatos • Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones • Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids) • Por último…Comunidades y sociedades del conocimiento

  34. A manera de conclusión para esta parte Large Aperture Gamma Ray Burst Observatory • El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos • Estas infraestructuras allanaran el camino para la e-ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46

  35. Large Aperture Gamma Ray Burst Observatory LAGODSpace

  36. Large Aperture Gamma Ray Burst Observatory LAGODSpace

  37. Large Aperture Gamma Ray Burst Observatory LAGODSpace SAI Recolector de datos y Metadatos

  38. Large Aperture Gamma Ray Burst Observatory LAGODSpace

  39. Large Aperture Gamma Ray Burst Observatory LAGOVirtual

  40. Large Aperture Gamma Ray Burst Observatory LAGOVirtual

  41. Large Aperture Gamma Ray Burst Observatory

  42. Large Aperture Gamma Ray Burst Observatory • LAGODSpace (metadatos) Datos que describen Datos ??? ¿Donde esta?

  43. Large Aperture Gamma Ray Burst Observatory LAGODSpace (metadatos)

  44. Large Aperture Gamma Ray Burst Observatory • USO DE LAGODSpace

  45. Large Aperture Gamma Ray Burst Observatory RedCLARA Beneficios, servicios ofrecidos, etc. • Financiación ????????? • Servicios Red de Alta Velocidad • Videoconferencias H.323 • Asociaciones • Capacitación • Visibilidad Necesidad

More Related