1 / 50

Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité. Sommaire . Rappel sur le XML Présentation des standards de connexion . Sommaire . Présentation de l’IPT (Integrated Publishing Toolkit) ‏ Démonstration de l’IPT. XML. Sommaire.

trina
Download Presentation

Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

  2. Sommaire Rappel sur le XML Présentation des standards de connexion

  3. Sommaire Présentation de l’IPT (Integrated Publishing Toolkit)‏ Démonstration de l’IPT

  4. XML

  5. Sommaire Présentation Avantages Utilisation du XML

  6. Présentation XML : eXtensible Markup Language Format d’échange de données Méta-Langage à balises Même principe que le HTML Information ajoutée au contenu pour marquer la structure logique

  7. Présentation <?xml version="1.0"encoding="UTF-8"?> ENTÊTEet ENCODAGE <DataSets xmlns="http://www.tdwg.org/schemas/abcd/1.2"> <DataSet> <OriginalSource> <SourceInstitutionCode>BDI</SourceInstitutionCode> ELEMENT <SourceName>BoBO - Botanic Garden Berlin BDI Observations</SourceName> <SourceLastUpdatedDate>2004-09-27</SourceLastUpdatedDate> </OriginalSource> <DatasetDerivations> <Units> <!– liste des unités --> COMMENTAIRE <Unit> BALISE OUVRANTE <UnitID>2</UnitID> <RecordBasis>Observation</RecordBasis> ... <HigherTaxon TaxonRank="Kingdom">animalia</HigherTaxon> ATTRIBUT </Unit> BALISE FERMANTE </Units> </DataSet> </DataSets>

  8. Présentation Séparation du fond et de la forme Forme : présentation à partir de la structure (style)‏ Fond : structure + données (contenu)‏ Langage multi-support

  9. Avantages Lisibilité : simple à comprendre Autodescriptif et extensible Structure arborescente Facilement déployable Intégrabilité

  10. Utilisation du XML Standardise l’information indépendamment de la structure de la base de données source Principe de « wrapping » : permet une mise en correspondance des colonnes et les tables d'une base de données avec un ou plusieurs éléments d'un schéma XML donné

  11. Utilisation du XML Au niveau du wrapper: Standards XML : ABCD et DarwinCore Logiciels : Biocase, TAPIR, DIGIR et IPT

  12. Standards

  13. Standards • Standard : document qui fournit des règles pour des procédés et méthodes de production. • Utilisé pour la conception des collections et bases de données de gestion de l'information.

  14. Standards Standards d’échange de données : Protocoles de transfert utilisés pour organiser et formater l’information pour échange. ABCD et Darwin Core : standards d’échange les plus connus pour les données de collection.

  15. Standards Pourquoi des standards? Fournir le medium, les règles et les protocoles pour échanger l’information. Permer l’interoperatibilité des données avec d’autres données. Homogeneise l’information en vue de son intégration à un système mondial

  16. Darwin Core Facilite l’échange d’information à propos des occurrences géographiques des espèces et l’existence des spécimens dans les collections. Pertinent pour les collections d’histoire naturelle.

  17. Darwin Core Schéma simple, adapté aux données sur fichiers plats. 46 éléments regroupés dans 7 catégories : Record level, taxonomic, identification, locality, collecting event, biological, reference. Liste des champs sur : http://wiki.tdwg.org/twiki/bin/view/DarwinCore/DarwinCoreDraftStandard

  18. ABCD Projet BIOCASE Standard d’échange de données sur les spécimens et les données d’observation. Plus complexe que Darwin Core (1200 élements). Site internet : http://wiki.tdwg.org/activities/ABCD (Access to Biological Collections Data)‏

  19. Biocase Logiciel mettant en correspondance une source de données avec un standard choisi. Produit : Fichier XML formaté et exploitable

  20. Démonstration

  21. Integrated Publishing Toolkit (1.0)

  22. Sommaire • Présentation générale de l’IPT • Introduction • Fonction dans le réseau GBIF • Resources • Caractéristiques • Fonctionnalités • Une plate-forme pour faciliter la décentralisation

  23. Sommaire Démonstration • Configuration • Publication de métadonnées • Publication de données • Web application, interfaces

  24. L’IPT est… Une web application Java open-source : Connecter et publier 3 types de données de biodiversité : - Données primaires - Information sur les espèces - Métadonnées sur les ressources À partir d’une source de données : - Base de données - Fichier plat Pour rendre ces données visibles sur le réseau distribué du GBIF

  25. Un composant du réseau GBIF

  26. Ressources Documentation et téléchargement http://code.google.com/p/gbif-providertoolkit/ Demo site http://ipt.gbif.org Version 1.0 disponible depuis le 31/03/2009 Chef de projet : Markus Döring, Senior Software Engineer, GBIF

  27. Caractéristiques Web application multilingue Contient un serveur de géolocalisation Gestion de rôles Base de données embarquée Supporte l’utilisation de fichiers texte (.csv)‏ Utilisation de vocabulaire pour limiter les termes Utilisation d’extension pour Darwin Core Vérification de la qualité de données basique Utilisation d’identifiant unique (uuid)‏

  28. Utilisation des wrappeurs Scénario original Les wrappeurs exposent les bases de données aux requêtes

  29. Utilisation des wrappeurs Scénario fréquent Une copie de base est utilisée pour la publication des données Souvent sur une machine de moins bonne qualité (perte de performance)‏ Souvent non mise à jour (fraîcheur des données)‏

  30. ‘Récolte’ avec les protocoles existants Le fournisseur a un wrappeur TAPIR • Ce wrappeur permet de récuperer 200 enregistrements par requete. • Si la base contient 260,000 enregistrements à récuperer : • 1300 request / responses • 9 heures au total • 500MB de transfert XML • Seulement 32MB “utiles” à l’index • Compressées en 3MB

  31. Contrôle du vocabulaire UUne fois défini, le vocabulaire est accessible à tous les utilisateurs de l’IPT

  32. Schéma extensible

  33. Page d’accueil paramétrable (1)‏

  34. Page d’accueil paramétrable (2)‏

  35. Gestion de rôles Les users ne peuvent qu’explorer les données Les managers ne gèrent que leurs données Possibilité de partager une même instance IPT

  36. S’enregistrer au GBIF

  37. Gestion des extensions

  38. Gestion des vocabulaires

  39. Créer des métadonnées

  40. Catégories de métadonnées Basic metadata Resource originator Geographic coverage Taxonomic coverage Temporal coverage IP Rights Research project information Methods Keywords

  41. Mapping

  42. Chargement des données Pendant le chargement, les données sont importées de la source (fichier plat ou base de données)‏ Des statistiques sont calculés

  43. Vue sur les ressources disponibles

  44. Exploration taxonomique La taxonomie provient de la source de données Un premier niveau de contrôle de qualité de données est effectué

  45. Résumé statistique

  46. Graphiques

  47. Contrôle de la qualité de données

  48. Sortie XML

  49. Contact Web site: http://www.gbif.org Data portal: http://data.gbif.org GBIF Secretariat Universitetsparken 15 2100 Copenhagen Denmark E-mail: trobertson@gbif.org Phone: +45 3532 1487

More Related