490 likes | 604 Views
Reunión anual del TDWG San Petersburgo, septiembre 2005. Resumen. Historia del TDWG (20 años) Frank Bisby. 1985: DB botánica en Reading [y Zootron cumple 3 años]. Sept: TDWG-I, Ginebra Entra en IUBS 1989: Canarias
E N D
Reunión anual del TDWGSan Petersburgo, septiembre 2005 Resumen
Historia del TDWG (20 años) Frank Bisby • 1985: DB botánica en Reading [y Zootron cumple 3 años]. Sept: TDWG-I, Ginebra • Entra en IUBS • 1989: Canarias • 1990: Delphi: GPSIS, IOPI. La mitad de los asistentes fundan GBIF. El último día se empieza a hablar de montar un sistema de BD común. • 1992: Jalapa…2004 Christchurch • Se intenta cambiar el nombre para que incluya ecólogos y biomoles, pero falla. Sigue TDWG.
Domingo 11/9 (ZIN) • 09:30 Structure of Descriptive Data (SDD) • 11:00 Coffee • 11:30 Natural Collections Descriptions/TDWG Executive Meeting • 13:00 Lunch • 14:30 Taxonomic Concept Exchange Standard (TCS) • 16:00 Coffee • 16:30 Protocol Developers group • 19:30 Evening Reception
Lunes 12/9 (BIN) • TDWG StandardsWalter Berendsohn • 10:00Welcome by the Chair • 10:05 Welcome by the Host Institute (Zoological Institute of the Russian Academy of Sciences) • Standards ProcedureWalter Berendsohn • 10:10Stan Blum: Report of the Procedures Subgroup and current procedure for voting on the proposed standards • 10:20 Lee Belbin: An overview of current practice in other Standardization Bodies • 10:40Discussion • 11:00 Coffee • Proposed standards for ratification (I) Stan Blum • 11:30Gregor Hagedorn: SDD (Structured Descriptive Data) • 12:15Jessie Kennedy: TCS (Taxonomic Concept Exchange Standard) • 13:00 Lunch • Proposed standards for ratification (II) Adrian Rissoné • 14:30Stan Blum: Darwin Core (Core Biological Collection Data) • 14:45Walter Berendsohn: ABCD-Schema (Access to Biological Collection Data) • 15:30 Discussion of standards for collection data • 16:00Coffee • Announcement and Presentation of Emerging StandardsWalter Berendsohn • 16:30Markus Döring: TAPIR (TDWG Access Protocol for Information Retrieval) • 16:40 Donald Hobern and Ricardo Pereira: GUIDs (Globally Unique Identifiers) • 16:50Bob Morris: Imaging/Multimedia • 17:00Steve Kelling: Observational Data • 17:10Geospatial data • 17:20 Economic Botany • 17:30Anna Weitzman: Literature • 17:40 Further standard initiatives
Martes 13/9 (ZIN) • Sesiones paralelas pre-café: • Biodiversity Informatics for taxonomic research in Russia • Oleg Pugachev • Data exchange formats, protocols and their integration (I) • Sally Hinchcliffe • Sesiones paralelas post-café: • Application design and Tools for taxonomic research • Anna Weitzman • Data exchange formats, protocols and their integration (II) • Sally Hinchcliffe • Posters/Demostraciones • Sesiones paralelas vespertinas: • Biodiversity data applications • Alexander Ryss • Taxonomic ontologies, identifiers and schemas • Neil Thomson
Miércoles 14/9 • Excursión • GBIF Data Provider Training • Banquete
Jueves 15/9 (BIN) • Enhancing the efficiency of data mobilisation • Gregor Hagedorn • 11:00 Coffee • Tools for the improvement of data quality and their application • Arthur Chapman • 13:10 Lunch • TDWG perspectives and the global biodiversity network • Walter Berendsohn • 16:00 Coffee • The Species 2000 and ITIS Catalogue of Life: assembling and disseminating the whole • Dmitri Geltman
Viernes 16/9 (ZIN) • Sesión Ejecutiva (British Council) Walter Berendsohn • Report of the Chair of the Executive Committee • Treasurer's report • Election of officers • Result of ballots on standards • TDWG meetings 2006 and 2007 • Future of TDWG: Interaction with the TDWG/GBIF Project • Other Business • 12:00 Lunch • 13:30 Computer Demonstrations • 14:30 Plenary Session • Institute of Distributed Taxonomy • 16:00 Coffee • 16:30 Break-out Groups • Gutenberg • Image/Multimedia • SDD
Sábado 17/9 (ZIN) • Observation • Georeferencing • SDD • Natural Collections Descriptions • Spatial Data
1.Experience exporting and importing SDD 1.0 2.An ontological approach to the organisation of biological information 3.HERBIS is the Erudite Recorded Botanical Information Synthesizer: electronic data publication from herbarium specimens – a click away 4.The PBI Solanum project – an international collaboration to monograph Solanum 5.ABCD – the proposed standard XML schema for Access to Biological Collection Data 6.Twenty years of TDWG: no more the travelling tea-party! 7.Completing the Catalogue of Life: phase 2 of the programme. 8.The Darwin Core 2 9.Graphic identification tool applied to West African trees 10.CHRONOS System’s approach to the development of paleobiological taxonomic databases and dictionaries 11.Towards best practice in georeferencing - Project BioGeomancer 12.Data quality tools for use in georeferencing natural history location data - Project BioGeomancer 13.Detecting spelling errors in taxonomic databases 14.A standards-based structure for supporting the exchange of biocollections data 15.WDC-MARE / PANGAEA – Publication of observational data on the base of persistent identifiers (DOI) 16.A first TAPIR implementation - the BioCASe PyWrapper serves a new protocol. 17.Make the tapir work. Practical potential of the TDWG Access Protocol for Information Retrieval (TAPIR) 18.Website and web application design for biodiversity informatics applications: incorporating the stakeholders 19.MorphBank: The requirements and implementation of a digital image phylogenetic database 20.Databases of the dendrological collection of PABGI 21.RMCA collaborator of the Belgian Generalized Natural Sciences Online and Spatial Information System project GNOSIS 22.Reducing the pain of digitising herbaria and sharing data 23.Open Source for species identification: an application of SVG (Scalable Vector Graphics) to a web based version of IDAO 24.Electronic collection of agricultural crops, their wild-growing relatives and pest organisms within the Former Soviet Union 25.An Internet-based information resource on the family Dolichopodidae (Insecta: Diptera) 26.Structured Descriptive Data (SDD) version 1.0 27.Remote annotation in a distributed access system - How to provide feedback? 28.Machine Learning for Extracting Darwin Core Data from Museum Labels 29.Development of GBIF data services 30.Using the Catalogue of Life in GBIF 31.The Gordon and Betty Moore Foundation grant for the GBIF–TDWG partnership 32.A machine learning environment for the automatic mark-up of taxonomic descriptions with XML 33.Modularisation of the TDWG XML standards 34.AlgaTerra: calibrating micro algal information on the Internet 35.EOL: a database application for presenting results of taxonomic revisions on the web. 36.The Catalogue of Life Web-services 37.Workflow as a Metaphor for Biodiversity Problem-Solving 38.The contribution of monitoring data to information about biodiversity 39.The Taxonomic Concept Schema: an XML standard for exchanging taxonomic names and concepts 40.ABCDEFG – a draft Extension For Geosciences to the ABCD XML schema 41.Databases on the “Supersite” of the Zoological Institute Web-portal – “Beetles (Coleoptera) and Coleopterists” 42.Half a million species: the Catalogue of Life Annual and Dynamic Checklists 43.Database “Habitats of East Fennoscandia”. 44.Databases of the information storage and retrieval system of the Herbarium MSKH: Hortus Botanicus Centralis - Info 87 presentaciones
45.Internet and XML-based program tools for the everyday work of taxonomists 46.The bird monitoring data exchange schema 47.The catalogue of the World Ocean Ophiuroidea (Echinodermata) from the collection of samples of the Institute of Oceanology RAN (Laboratory of Bottom Fauna) 48.“ZOOCOD” - the data standard for the building taxonomic tables and representation of multilevel hierarchies in the relation databases 49.Database “Weed Plants in Russia Flora” – results and perspectives 50.FloraWeb – the German Web Flora 51.World Database of Fleas (Insecta: Siphonaptera): SIPHONAPTERA): experience of morphological analysis 52.The Royal Museum for Central Africa in the era of biodiversity informatics 53.Tropicos in taxonomic toil: daucus or ferula? 54.Integrated search on taxonomic databases 55.SPICE protocol and SPICE system 56.The CIDOC Conceptual Reference Model (CRM), a core-ontology for information integration 57.Distribution maps of Russian Umbelliferae – simple technique of electronic view 58.Legacy Infrastructure Network for Natural Environments (LINNE) 59.Concept of a simple database providing storage and management of the information on regional fauna and flora 60.Spatial modelling of plant species potential habitats 61.Information technology tools in biodiversity research: basic results and trends 62.A Web-based collaborative environment for building the Cypriniformes Tree of Life 63.Species 2000 Metadatabase: practicality and dreams 64.Introducing SPIDA-web: An automated identification system for biological species 65.On the standards of taxonomic description in Nematoda 66.The revision of the genus Bursaphelenchus Fuchs (Nematoda: Parasitaphelenchidae) and analysis of the phylogeny and evolution with the use of the information technology tools 67.ALTER-Net - An Object Oriented Approach to Ecological and Biodiversity Data Networking 68.Serving Our Audiences: What teachers want from a tree of life visualization 69.Illustrated catalogue of the types of plant taxa of the Vir Herbarium (Wir) 70.Access rights management and access control for BioCASE 71.SDD and the Key to Life 72.Natural Collections Descriptions (NCD): a standard for describing entire collections. 73.Collections of digital iconographic pictures of plants to decides taxonomic questions on living collections in Russian and Chinese botanical gardens 74.Using TAPIR views for integrating Biodiversity data sources into existing standard applications 75.Mapping equivalences: the role of a name server in providing access to real-world biodiversity datasets 76.Database of the herbaceous perennial plants of the Polar-Alpine Botanical Garden used outdoors in the Northern Territories introduction experiments 77.Services for improving integrity in federated taxonomic information systems 78.Usable georeferencing infrastructure: preliminary lessons with BioGeomancer 79.Pitfalls and prospects for spatially challenged occurrence data 80.Making TAPIR data providers BioMOBY services: first steps. 81.Data exchange formats: experience from the National Biodiversity Network 82.Taxon names in multiscript languages 83.OBIS continues its global expansion through content, standard, and service development 85. TROPICOS: Next Generation - The newest version of the global plant taxonomic data source 86. Interactive visualizations of taxonomic/phylogenetic trees and ecological networks 87. Metadata for specimen taxonomic surrogates 87 presentaciones
Organización y administración Estándares Votaciones de estándares listos Retirada de la propuesta de DC2 Propuestas de nuevos estándares Propuesta de nuevos grupos de trabajo “Meta-TDWG” Historia Beca de la Fundación Moore Contrato de un equipo técnico Nombre del TDWG GBIF y TDWG Desarrollo técnico actual Protocolos/wrappers TAPIR ABCD SPICE Servicios ToL CoL ITIS SPIDA-Web Herramientas Georreferenciación GNOSIS EOL HERBIS Cuestiones científicas GUID, LSID TCS Información georreferenciada BioGeoMancer Imágenes, multimedia ENBI-Images Catálogos y bases de datos desarrolladas Generales OBIS MorphBank TROPICOS Particulares Filogenia y sistemática Metadatos y ontologías NCD CIDOC DOI Redes colaborativas ALTER-Net LINNE Perspectivas de futuro Asuntos más relevantes
ESTÁNDARES en TDWG • Stan Blum: Procedimientos • Revisión: El comité de estándares prepara una propuesta para el comité ejecutivo que se distribuye al menos 60 días antes de la reunión anual; el borrador está desde 180 días antes. En la reunión se discute y se reparten papeletas; luego se vota durante varias semanas. • Lee Balvin:Nuevo proyecto de estándares • nuevo proyecto de trabajo colaborativo gracias a una beca de la fundación Moore. Se ha contratado un gerente, un ingeniero de sistemas y un programador (Ricardo Pereira). Tareas: • Revisar los estándares de trabajo del TDWG (TDWG, CODATA, GGF, IEEE, etc.) • Analizar otros estándares, incluyendo GBIF • Poner cosas en común con la gente reunida en San Petersburgo • Elaborar un estándar de “buenas prácticas” que se hará circular entre los miembros. Deberá estar listo a finales de abril de 2006.
SDD Greg Hagedorn, Bob Morris • SDD promueve la codificación de taxones, como en DELTA (SDD es una especie de actualización de DELTA-II) (matrices taxon/carácter) • Se recomienda una estandarización, aunque son los científicos los que los definen: • SDD NO intenta estandarizar la terminología, sino que es un marco para que los biólogos realicen esa estandarización. • No publica datos taxonómicos no estructurados • Se incluyen datos descriptivos y ontologías: • definiciones de términos • definiciones de caracteres y estados • SDD utiliza una descripción con lenguaje natural (XML) y generación dinámica • SDD propone: • Caracteres (~ variables): cualitativos, cuantitativos, estadísticas... • Conceptos (~ árboles): organización de los caracteres • Modificadores (~ métodos estandarizados de extensión): frecuencia, probabilidad, localización...
Darwin Core 2 (DC2) Stan Blum • Estado de la cuestión: • La georreferenciación que se exigía en la nueva versión no iba a estar disponible • Los campos de localidad no son obligatorios • Toda la georreferenciación pasa a ser una extensión • Las fechas se convierten en margen de fechas (de… a…) • Se abre un espacio para una futura definición de GUID • Los campos temporales pasan a ser ISO pero se expresan en días julianos • Los atributos de DiGIR se han eliminado • Con todo esto, se abre una discusión y el resultado es… • …la retirada de DC2 de la propuesta! No parece que esté aún en condiciones de pasar a ser un estándar • Se replantea volver a proponerlo para la siguiente reunión una vez que se hayan acordado los asuntos anteriores y se haya designado un arquitecto para el sistema • La georreferenciación parece el principal escollo, aunque deben acomodarse muchas otras cuestiones planteadas en esta reunión
ABCD-Schema 2.0 Walter Berendsohn • Prescinde del concepto de taxón (¿queda para el TCS?) • Extensible • Con gestión de IPR • Compatible con DC a través de 47 elementos • Europa está usándolo para una red de 180 BD conectadas • El estándar el el esquema XML (NO la documentación)
TAPIR Markus Döring • Desarrollo: • Javier de la Torre, Steven Perry, Robert Gales, Renato De Giovanni, Markus Döring, Donald Hobern • Sirve a BioCASE y a DiGIR a través de wrappers desarrollados en Berlin y Kansas • De momento, una única URL para un GET que: • Pide datos a un proveedor (p.ej. GBIF) • Traduce con XML, XLST a las especificaciones de otro proveedor (p.ej. KML) • Recupera la nueva información (p.ej. Google Earth) • Toda aplicación que pueda trabajar con XML y un esquema definido es un posible cliente TAPIR • GBIF usa TAPIR como el proveedor central de XML • Negociaciones para que TAPIR pase a ser el servicio para BioMOBY (biología molecular) http://ww3.bgbm.org/protocolwiki/ http://jarvis.local/tapir/pywrapper.cgi
TCS Jessie Kennedy • Taxonomic Concept Schema • Trata de resolver la guerra principal entre “nombres” y “conceptos” en taxonomía, y una batalla secundaria sobre la historia de los nombres • Propuesta actual para el CONCEPTO taxon: Nombre+autor+año+según(nombre,publicación,año)+definición • Incluye una lista taxonómica conceptual http://www.soc.napier.ac.uk/tdwg/index.php
Bibliografía Anna Weizmann • La bibliografía está ausente de los estándares del TDWG • Se contemplan tres niveles: • Microcitación (línea de cita) • Gutenberg Core • Modelo completo (con frontispicio, TDC, tratamiento taxonómico, etc.) • Está bastante verde aunque se ha organizado dos grupos de trabajo para microcitas y GC, y para el modelo completo (Chuck Miller, Donald, Whitebread, Stan, etc.)
Servicios de GBIF: análisis Donald Hobern • Demuestra la integración de muchos estándares (DiGIR, BioCASE, DC, ABCD, CoL) …pero… • La interfaz es sólo HTML • Capacidad de búsqueda limitada • Modelo de datos (UDDI) inadecuado • Pobre tratamiento de la homonimia • El XML actúa como una caja negra …por tanto... • El portal va a moverse hacia una segunda generación http://wiki.gbif.org/dadi/wiki/wikka.php
HERBIS Reed Beaman • En el mundo hay del orden de 1G ejemplares de museo, con 1,5M especies • Procesándolas a 10 minutos por especimen, salen 166m horas = 21M días = 833kpax/año • En Chania se propuso usar la imagen del herbario para extraer los datos de las etiquetas: HERBIS es un OCR “inteligente” que lo hace • Usa OCR, NHR y NLP • Se plantea ponerlo como web service • Exige resoluciones de escaneo de 300 dpi para OCR y 600 dpi en tipos o e-préstamos; TIFF o LL JP2K • Significa imágenes de 22 Mpx • Usa PostgreSQL, Tomcat, AXIS/SOAP http://www.herbis.org/
CIDOC Christian Ore, Heinz Lampe • CIDOC gestiona la documentación museística del ICOM (Comité Internacional de Museos) • Describe los metadatos de las colecciones que se deben almacenar • Incluye objetos en muchos niveles; si cumplen una serie de condiciones, pasan a otro nivel • Ejemplo: Objeto biológico+información adecuada=holotipo • Tiene aspecto de mapa conceptual
LITCHI Richard White • Objetivo: Automatización de tareas taxonómicas • Modelización del conocimiento y de las reglas de integridad • Basado en web • Compara listas para buscar inconsistencias, duplicaciones, sinonimias,etc.
Georreferenciación Arthur Chapman • Documento de Buenas Prácticas • BioGeoMancer • Principios: • Exactitud (radio de incertidumbre) • Eficacia: probabilidad de acertar con el objeto correcto • Eficiencia: cantidad de trabajo necesario para obtener buenos datos geográficos • Fiabilidad: grado de consistencia • Accesibilidad • Transparencia • Actualización • Relevancia • Operativo, pero está siendo refinado. Por ejemplo: el radio de incertidumbre puede ser reducido enmascarando áreas imposibles (costas…) http://www.biogeomancer.org/
Georreferenciación (II) John Wieczorek • Se propone usar BioGeoMancer para georreferenciar aceptablemente las BD con datos geográficos no estructurados. Secuencia: • Interpretación de los datos literales: análisis de expresión, NLP: • Interpretación de los “tipos” de localidades (50% “feature”, 21% “locality not recorded”, 17% “offset from feature”,…) • Puede no haber delimitadores, puntuación: interpretación por reglas • Las referencias de localidad pueden ser inexactas (punto/área): construcción de descriptor • Interpretación espacial final
Georreferenciación (III) Renato DeGiovanni • Escenario 1: BD no georreferenciada • A BGM para interpretar los datos; la georef. Vuelve a la BD • Escenario 2: BD georreferenciada • A un validador. Se ha preparado un marco Java para GBIF. • Resultados: Etiquetas XML que pueden pegarse al registro, a sus partes, o a toda la BD • Tests en desarrollo: • Detección de errores: • Inconsistencias: lat/long con regiones; con elevación; con hábitat; fechas con recolector o itinerario, etc. • Outliers: • Por jacknife inverso (estadístico) • Por distribución esperada del taxon http://cvs.sourceforge.net/viewcvs.py/gbif/DataTester/ http://georef22.peabody.yale.edu/bg/workbench.jsp
Errores de deletreo en las BD taxonómicas Richard White • Algoritmos para detectar errores cuando NO se dispone de vocabularios (agudo en las BD taxonómicas) • Se buscan parejas de nombres similares (ILDIS, MARINE, SP2K, PMA, CNIP) contra “controles” con errores conocidos • Se buscan caracteres inválidos • Proximidades fonéticas (obviamente, agudo en inglés pero no en otros idiomas): SoundeX, PhoniX • Algoritmos de transformación y n-gramas • Llaves maestras (comodines): como un “digest” de la palabra • Tienen muchos falsos positivos. Máxima tasa de errores en los invertebrados
Imagen digital Arturo H. Ariño • Posibilidad de usar imágenes en sustitución de los ejemplares • Requerimientos mínimos de calidad para uso científico • Requisitos de metadatos • Casos especiales • Manual ENBI de buenas prácticas para imagen digital de series tipo • Combinación bancos de imágenes-datos alfanuméricos: nuevos slots para DiGIR (GBIF) • Interacción con anotación remota (Morris)
LINNE Reed Beaman • Objetivo: Taxonomía -> Megaciencia • Renacimiento de la sistemática por los estudios de biodiversidad; creación de infraestructuras de información • LINNE: Ciberlaboratorio para taxonomía: • Modernización de colecciones • Verificaciones y puestas al día • Enlace entre laboratorios • Trabajo virtual
ALTER-Net Kathyn Schantz • Red para integrar datos biológicos y ecológicos sobre biodiversidad • Orientada a objetos • Incluye ontologías • Las ontologías incluyen actores (gente, instituciones…) • Específica de dominios
TROPICOS Chuck Miller • Arquitectura de información botánica (1M nombres, 100K artículos, 50K autores) • Incluye referencias digitalizadas (BOTANICUS) (182 vols, 82000 págs, 2500 págs/semana) http://mobot.mobot.org/W3T/Search/vast.html www.botanicus.org
Sp2000 – Catalogue of Life Yuri Roskov • Estado en 2005: • 527 K sp • 414 K syn • 253 K nombres vulgares • 24 DB • Cobertura completa: 2011 • Actual/Estimaciones: • Virus: 2k • Archaea: 105 • Bacterias: 6k • Protos: 6k/80k • Hongos: 27k/72k • Plantas: 50k/270k • Animales: 130k/1344k • Construida a partir de varias DB pero ahora se encajan en ITIS • Acaba de pasar (diciembre) de listas anuales a listas dinámicas
MorphBank Gregg Riccardi • Depósito fiable y seguro de imágenes taxonómicas, material digital y la información asociada • Soporta matrices de imágenes para taxonomía • Esquema relacional: las imágenes están asociadas a los especímenes, asociados a especies, etc. • Diversos proyectos lo están usando • Permite anotaciones • Permite relaciones explícitas entre objetos • Usa la jerarquía de ITIS
GUIDs Donald Hobern • Se ha establecido una lista de correo y se prevé un workshop en febrero de 2006 en Durham • Hay en marcha una discusión sobre qué camino seguir (LSID, DOI, etc.) • Polarización entre partidarios de GUID y TCS • Proyecto por la Fundación Moore • Tarea principal: Desarrollar GUIDs para cada registro • Se establece un grupo de trabajo • Se ha abierto una discusión electrónica • Borrador para Abril de 2006 • Final: Julio 2006
Reunión Ejecutiva • Minutas 2004 listas; se aprueban • Estándares: • No se aceptarán más en formato no electrónico • No se crean nuevos grupos hasta que se haya desarrollado la nueva estructura del TDWG • Votación de recomendación: • ABCD: 27/2/1 • SDD: 26/1/3 • TCS: 23/4/3 • Estructura • Con la Moore se va a desarrollar un proyecto de infraestructura (TIP) • Cuentas • 52 miembros • 123 participantes NZ, 103 RU • Nuevos cargos • Todos los votos a favor de la junta • TDWG 2006,2007 • Ofertas: Baton Rouge; St. Louis; Rolling (NC); INRA (FR),Bratislava [convocatoria definitiva: BMG, St. Louis] • Secretaría del TIP • Redefinición de nombre y objetivos: “International Working Group on Taxonomic Databases” • Se convertirá en una Sociedad Internacional • Se mantendrá como WG en IUBS