400 likes | 525 Views
Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales. Valpré – 7 décembre 2010. ENJEUX. Le projet – Les enjeux. Enjeux stratégiques. Un outil : des usages multiples. Un point d’accès aux données numériques des SHS.
E N D
IsidoreAccès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010
Le projet – Les enjeux • Enjeux stratégiques • Un outil : des usages multiples • Un point d’accès aux données numériquesdes SHS • Un socle : une infrastructure applicative
Le projet – Les enjeux • Enjeux technologiques Des besoins « forts » en traitement des données Un outil industriel et évolutif Prendre en comptela diversité
Le projet – Les enjeux • Enjeux organisationnels • Méthode agile • Une maîtrise d’œuvre plurielle publique-privée
Méthode projet Enrichissement des données Moteur de recherche Gestion des référentiels Plateforme d’intégration Frontaux (proxy) Démonstrateur Intégration et IHM
Principe du projet • Un projet classique en apparence Collecter Traiter Diffuser
Vision de la valorisation de l’information Contenu Bases d’indexation Texte … 2.0 Web RDF EndpointSparQL 3.0 xhtml+RDFa Linked Data Publication robots Captation / Extraction Annotation Inférence
Les particularités du projet • Collecter des données hétérogènes • primaires, secondaires • annuaires, bases de données, référentiels • Exploiter les métadonnéeset le texte intégral • Points durs : diversité, volumétrie
Les particularités du projet • Traiter Normaliser les données(qualité, forme, alignement) Enrichir(classification, URI pérenne, vignettes, extraction…)
Les particularités du projet • Diffuser avec le moteur de recherche • recherches plein texte, multicritères et à facettes • autocomplétion, correction orthographique • traitements linguistiques avancés
Les particularités du projet • Diffuser dans le Web de données Rendre accessibleà l’écosystème les données enrichies Se préparer auLinked/Open Data Permettre l’émergence de nouveaux outils exploitant les données
Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffusion Applications Moteur de recherche Web des données COLLECTER TRANSFORMER ENRICHIR INDEXER GENERER Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore ADMINISTRER Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services
La réponse • AFS-PaF : Pipes and Filters • industrialisela chaîne de captation et de traitement des données • introduit un modèle d’Unité Documentaire évolutif et souple • fournit un cadre de développement et de configuration de haut niveau
Chaines de traitement • Créer des chaines de traitement par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement
Des filtres • Un framework qui permet de construire des modules • 50+ filtres prêts à l’emploi • Un environnement d’exécution
Le document • Le document • est composite • est dynamique • évolue dans le temps • est un objet à gérer • à accéder de façonunifiée
Le Document • Document Manager abstrait le stockage et l’accès aux documents : • stockage « cloud » • créer / lire / écrire les couches
Vue générale de la chaîne « PaF » Isidore Des sources multiples et des traitements ad-hoc • Sites Web • collecte par sitemap • extraction des données RDFa • Flux RSS • capitalisation « illimitée » • Entrepôts de publications : articles, revues, thèses, … • captation structurée : OAI-PMH, OAI-ORE • extraction des métadonnées : DC • Diverses sources structurées • annuaires de personnes, ressources, sources • conférences, séminaires, … Sources de données Connecteurs Modules Pipes&Filters spécifiques aux sources Modules Pipes&Filters communs Sites Web (sitemap) Flux RSS … Liens pérennes Entrepôts OAI … Annotation … Calenda … … Référentiels SKOS Fichiers XML de configuration des connecteurs AFS et des modules de normalisation
Chaîne de collecte et de traitement Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de l’auteur Récupération Handle et imagette Ajout des informations sources/document Sérialisation du XML pivot
Chaine d’enrichissement Une chaîne dédiée à l’enrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations
Maintenabilité - exemple • 745 sources de données PaF des données … Configuration des sources Isidore (application dédiée) PaF des sources Interface Utilisateur Fichiers XML de définition des sources Moteur de recherche dans les sources
La classification automatique • Classification par entrainement • le moteur utilise les documents déjà classés pour apprendre • puis utilise la base d’indicateurs statistiques pour catégoriser les 900 000 documents du corpus
L’alignement • Alignement des contenus sur des référentiels fr Français FR francais français Français Anglais en anglais eng english EN
L’Extraction • Extraction sur des référentiels Mots clefs Chaîne de caractères Est exprimé par Est décrit par Le moteur effectue unecomparaison morphologique Pour lier le mot-clé au concept Étiquette A noter qu’un algorithme permet de limiter le nombre d’annotations par contextualisation Est exprimé par Une ressource documentaire Chaîne de caractères Est décrit par Est décrit par Organise Concept Un thésaurus
Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffusion Applications Moteur de recherche Web des données INDEXER GENERER Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services
Publication du RDF • Les données et enrichissements sont exportés en RDF en bout de chaine • Les triplets générés sont exploités • pour retour vers les sources sous forme normalisée • pour traiter des requêtes complexes • pour une exposition dans le Web de données Génération Chargement de l’entrepôt Entrepôt RDF Fichiers de triplets Corpus
Négociation de contenu • AFS et SPARQL sont des Web Service techniques • Ils sont enrobés dans une couche métier • un Web Service applicatif qui permet la négociation de contenu Description XML Description RDF Document
Favoriser l’utilisation • Pas de code spécifique • de la « configuration » : XSL et SPARQL au plus • limiter les coûts de développement / test • disposer d’une solution simple à faire évoluer
Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffuser Applications Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services
Architecture physique • 6 serveurs : haute disponibilité • 2 frontaux : Web Services • 2 répondeurs, 1 indexeur • 1 triplestore et back-office