1 / 40

Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales

Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales. Valpré – 7 décembre 2010. ENJEUX. Le projet – Les enjeux. Enjeux stratégiques. Un outil : des usages multiples. Un point d’accès aux données numériques des SHS.

prue
Download Presentation

Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. IsidoreAccès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010

  2. ENJEUX

  3. Le projet – Les enjeux • Enjeux stratégiques • Un outil : des usages multiples • Un point d’accès aux données numériquesdes SHS • Un socle : une infrastructure applicative

  4. Le projet – Les enjeux • Enjeux technologiques Des besoins « forts » en traitement des données Un outil industriel et évolutif Prendre en comptela diversité

  5. Le projet – Les enjeux • Enjeux organisationnels • Méthode agile • Une maîtrise d’œuvre plurielle publique-privée

  6. Méthode projet Enrichissement des données Moteur de recherche Gestion des référentiels Plateforme d’intégration Frontaux (proxy) Démonstrateur Intégration et IHM

  7. Un projet classique ?

  8. Principe du projet • Un projet classique en apparence Collecter Traiter Diffuser

  9. Vision de la valorisation de l’information Contenu Bases d’indexation Texte … 2.0 Web RDF EndpointSparQL 3.0 xhtml+RDFa Linked Data Publication robots Captation / Extraction Annotation Inférence

  10. Les particularités du projet • Collecter des données hétérogènes • primaires, secondaires • annuaires, bases de données, référentiels • Exploiter les métadonnéeset le texte intégral • Points durs : diversité, volumétrie

  11. Les particularités du projet • Traiter Normaliser les données(qualité, forme, alignement) Enrichir(classification, URI pérenne, vignettes, extraction…)

  12. Les particularités du projet • Diffuser avec le moteur de recherche • recherches plein texte, multicritères et à facettes • autocomplétion, correction orthographique • traitements linguistiques avancés

  13. Les particularités du projet • Diffuser dans le Web de données Rendre accessibleà l’écosystème les données enrichies Se préparer auLinked/Open Data Permettre l’émergence de nouveaux outils exploitant les données

  14. Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffusion Applications Moteur de recherche Web des données COLLECTER TRANSFORMER ENRICHIR INDEXER GENERER Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore ADMINISTRER Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services

  15. COLLECTER, transformer, enrichir

  16. La réponse • AFS-PaF : Pipes and Filters • industrialisela chaîne de captation et de traitement des données • introduit un modèle d’Unité Documentaire évolutif et souple • fournit un cadre de développement et de configuration de haut niveau

  17. Chaines de traitement • Créer des chaines de traitement par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement

  18. Des filtres • Un framework qui permet de construire des modules • 50+ filtres prêts à l’emploi • Un environnement d’exécution

  19. Le document • Le document • est composite • est dynamique • évolue dans le temps • est un objet à gérer • à accéder de façonunifiée

  20. Le Document • Document Manager abstrait le stockage et l’accès aux documents : • stockage « cloud » • créer / lire / écrire les couches

  21. PAF ISIDORE Principes Généraux

  22. Vue générale de la chaîne « PaF » Isidore Des sources multiples et des traitements ad-hoc • Sites Web • collecte par sitemap • extraction des données RDFa • Flux RSS • capitalisation « illimitée » • Entrepôts de publications : articles, revues, thèses, … • captation structurée : OAI-PMH, OAI-ORE • extraction des métadonnées : DC • Diverses sources structurées • annuaires de personnes, ressources, sources • conférences, séminaires, … Sources de données Connecteurs Modules Pipes&Filters spécifiques aux sources Modules Pipes&Filters communs Sites Web (sitemap) Flux RSS … Liens pérennes Entrepôts OAI … Annotation … Calenda … … Référentiels SKOS Fichiers XML de configuration des connecteurs AFS et des modules de normalisation

  23. Chaîne de collecte et de traitement Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de l’auteur Récupération Handle et imagette Ajout des informations sources/document Sérialisation du XML pivot

  24. Chaine d’enrichissement Une chaîne dédiée à l’enrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations

  25. PAF ISIDOREFocus sur certains points

  26. Maintenabilité - exemple • 745 sources de données PaF des données … Configuration des sources Isidore (application dédiée) PaF des sources Interface Utilisateur Fichiers XML de définition des sources Moteur de recherche dans les sources

  27. La classification automatique • Classification par entrainement • le moteur utilise les documents déjà classés pour apprendre • puis utilise la base d’indicateurs statistiques pour catégoriser les 900 000 documents du corpus

  28. L’alignement • Alignement des contenus sur des référentiels fr Français FR francais français Français Anglais en anglais eng english EN

  29. L’Extraction • Extraction sur des référentiels Mots clefs Chaîne de caractères Est exprimé par Est décrit par Le moteur effectue unecomparaison morphologique Pour lier le mot-clé au concept Étiquette A noter qu’un algorithme permet de limiter le nombre d’annotations par contextualisation Est exprimé par Une ressource documentaire Chaîne de caractères Est décrit par Est décrit par Organise Concept Un thésaurus

  30. Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffusion Applications Moteur de recherche Web des données INDEXER GENERER Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services

  31. Générer, Diffuser

  32. Publication du RDF • Les données et enrichissements sont exportés en RDF en bout de chaine • Les triplets générés sont exploités • pour retour vers les sources sous forme normalisée • pour traiter des requêtes complexes • pour une exposition dans le Web de données Génération Chargement de l’entrepôt Entrepôt RDF Fichiers de triplets Corpus

  33. Négociation de contenu • AFS et SPARQL sont des Web Service techniques • Ils sont enrobés dans une couche métier • un Web Service applicatif qui permet la négociation de contenu Description XML Description RDF Document

  34. Favoriser l’utilisation • Pas de code spécifique • de la « configuration » : XSL et SPARQL au plus • limiter les coûts de développement / test • disposer d’une solution simple à faire évoluer

  35. Une aide à l’intégration

  36. Architecture

  37. Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffuser Applications Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services

  38. Architecture logique

  39. Architecture physique • 6 serveurs : haute disponibilité • 2 frontaux : Web Services • 2 répondeurs, 1 indexeur • 1 triplestore et back-office

  40. Merci de votre attention

More Related