310 likes | 409 Views
Médiation de données : solutions et problèmes ouverts. Genoveva Vargas Solar Equipe Bases de Données NODS CNRS, LSR-IMAG, Grenoble Genoveva.Vargas@imag.fr Anne Doucet Equipe Bases de Données Laboratoire LIP6, Paris VI Anne.Doucet@lip6.fr. Vers la conquête de l’information.
E N D
Médiation de données : solutions et problèmes ouverts Genoveva Vargas Solar Equipe Bases de Données NODS CNRS, LSR-IMAG, Grenoble Genoveva.Vargas@imag.fr Anne Doucet Equipe Bases de Données Laboratoire LIP6, Paris VI Anne.Doucet@lip6.fr
Vers la conquête de l’information G. Vargas Solar, A. Doucet : Assises GDR I3
Médiation de sources • Accès transparent aux données, i.e., illusion d’un système unique et homogène dictionnaire de données réparti, requêtes réparties et transactions, communication de données, cohérence, sécurité Infrastructures de médiation G. Vargas Solar, A. Doucet : Assises GDR I3
Plan • Médiation de données • Systèmes de bases de données hétérogènes et réparties • Distribution, hétérogénéité, autonomie et interopérabilité • Taxonomies de systèmes • Intégration de données • Gestion globale de données • Recherche actuelle et perspectives G. Vargas Solar, A. Doucet : Assises GDR I3
Adaptateur Adaptateur Systèmes de bases de données hétérogènes et réparties Applications Médiateur Niveau global Adaptateur Niveau local Relations Objects Données non structurées G. Vargas Solar, A. Doucet : Assises GDR I3
Distribution Interopérabilité Autonomie Hétérogénéité Caractéristiques • Distribution de données • stockées sur des dispositifs locaux ou répartis géographiquement • réparties au sens relationnel • dupliquées sans répliques structurées de manière homogène disponibilité et amélioration de temps d’accès • Hétérogénéité • Autonomie • Interopérabilité G. Vargas Solar, A. Doucet : Assises GDR I3
Caractéristiques • Distribution de données • Hétérogénéité • Système homogène : • même logiciel qui gère les données sur tous les sites ; • même modèle de données • même univers de discours • Système hétérogène • n’adhère pas à toutes les caractéristiques d’un système homogène • différents langages de programmation et d’interrogation, des modèles, des SGBD • Autonomie • Interopérabilité G. Vargas Solar, A. Doucet : Assises GDR I3
Caractéristiques • Distribution de données • Hétérogénéité • Système homogène : • même logiciel qui gère les données sur tous les sites ; • même modèle de données • même univers de discours • Système hétérogène • n’adhère pas à toutes les caractéristiques d’un système homogène • différents langages de programmation et d’interrogation, des modèles, des SGBD • Autonomie • Interopérabilité G. Vargas Solar, A. Doucet : Assises GDR I3
Caractéristiques • Distribution de données • Hétérogénéité • Autonomie • Conception : sources locales avec des • modèles de données propres, • langage d’interrogation • Interprétation sémantique des données, contraintes, fonctions … • Communication : les sources de données locales décident quand et comment répondre aux questions d’autres sources • Exécution : pas d’information provenant des sources locales sur • l’ordre d’exécution des transactions locales ou des opérations externes • pas de distinction entre les opérations locales et globales • Association : • connexion et déconnexion des sources • partage de données et des fonctions • Interopérabilité G. Vargas Solar, A. Doucet : Assises GDR I3
Caractéristiques • Distribution de données • Hétérogénéité • Autonomie • Interopérabilité • Deux systèmes sont interopérables : • échange de messages et de requêtes • fonctionnement comme une unité pour une tâche commune • Utilisation de fonctions des uns et des autres • Fonctionnement comme des clients et des serveurs • Communiquent même avec des composants internes incompatibles G. Vargas Solar, A. Doucet : Assises GDR I3
Plan • Médiation de données • Systèmes de bases de données hétérogènes et réparties • Distribution, hétérogénéité, autonomie et interopérabilité • Taxonomies de systèmes • Intégration de données • Gestion globale de données • Recherche actuelle et perspectives G. Vargas Solar, A. Doucet : Assises GDR I3
Architecture Distribution Distributed homogeneous DBMS Distributed Federated DBMS Distributed Multi- DBMS Multi- DBMS Logically integrated Heterogeneous Multi-DBMS yes partial no total Autonomy yes Distributed heterogeneous DBMS Distributed heterogeneous Federated DBMS Heterogeneous integrated DBMS Heterogeneous Federated DBMS In the same node heterogeneous Multi- DBMS Distributed heterogeneous Multi- DBMS Heterogeneity G. Vargas Solar, A. Doucet : Assises GDR I3
Information research system Loosely integrated system Strongly Integrated system Du point de vue localisation de données … Query systems for heterogeneous sources Leave the data where they are Move the data Virtual integrated systems Materialized Systems Structured native data Native & derived structured data Mostly structured data Structured Semi-structured unstructured native data Unstructured native data Universal DBMS Data warehouse Federated Databases Mediated Query Systems Meta-search engine G. Vargas Solar, A. Doucet : Assises GDR I3
Du point de vue niveau intégration fort faible • Bases de données réparties • Fédérations de bases de données • Multi bases de données avec schéma global • Bases de données inter opérables … G. Vargas Solar, A. Doucet : Assises GDR I3
Schéma global house addresse contact bathrooms agent name agent telephone house half baths location contact full baths name telephone G. Vargas Solar, A. Doucet : Assises GDR I3
Plan • Médiation de données • Systèmes de bases de données hétérogènes et réparties • Intégration de données • Hétérogénéité • Intégration logique • Gestion globale de données • Recherche actuelle et perspectives G. Vargas Solar, A. Doucet : Assises GDR I3
Hétérogénéité • Sémantique • Signification, interprétation ou utilisation différente de la même donnée • Types de relations sémantiques • R1 identique R2 : même constructeur, même concept • R1 équivalente R2 :constructeurs différents, même concept • R1 compatible R2 :ni identiques, ni équivalents • R1 incompatible R2 :contradictoires • Structurelle G. Vargas Solar, A. Doucet : Assises GDR I3
Hétérogénéité • Sémantique • Structurelle • Représentation différente des mêmes concepts dans des bases différentes • Conflits de noms, types de données, attributs, unités Modèle de données expressif G. Vargas Solar, A. Doucet : Assises GDR I3
Intégration Processus semi automatisable permettant d’intégrer des données structurellement et sémantiquement hétérogènes • Pré intégration • Analyse des schémas • Ordre d’intégration • Identification de conflits • Définition de contraintes globales • Comparaison • Identification de relations entre attributs • Homonymes, synonymes, types de données, dépendances • Propriétés inter schémas (dépendances d’inclusion, exclusion, union) • Mise en conformité : résolution de conflits • Regroupement et restructuration : mise en forme d’objets dans la vue intégrée G. Vargas Solar, A. Doucet : Assises GDR I3
Plan • Médiation de données • Systèmes de bases de données hétérogènes et réparties • Intégration de données • Hétérogénéité • Intégration logique • Gestion globale de données • Recherche actuelle et perspectives G. Vargas Solar, A. Doucet : Assises GDR I3
Représentation des aspects sémantiques • Logique de description • Méta attributs et valeurs représentation d’un contexte • Dictionnaires de données vocabulaire utilisé dans las bases de données • Ontologies décrivant des domaines de discours (concepts, relations, valeurs) G. Vargas Solar, A. Doucet : Assises GDR I3
A A Schéma global Schéma global Local as View vs. Global as View Local as view Global as view La source 1 contient la donnée A La donnée A provient de la source 1 LAV GAV Schémas locaux exportés : vues du schéma global pré défini Schéma global : vue à partir des schémas locaux G. Vargas Solar, A. Doucet : Assises GDR I3
GaV vs. LaV • Les systèmes GaV (ex. TSIMMIS, SIMS, Garlic) • La qualité du système dépend de comment les sources sont intégrées pour construire le schéma global • Lorsqu'une source change ou une nouvelle source est ajoutée et doit participer au système, le schéma global doit être mis à jour • La phase de réécriture est plus simple • Les systèmes LaV (ex. Information Manifold) • La qualité du système dépend de comment les sources sont caractérisées • Si le schéma global est bien spécifié à priori, la modification ou l ’ajout d ’une source n'en entraîne pas sa modification • La réécriture est plus complexe G. Vargas Solar, A. Doucet : Assises GDR I3
Plan • Médiation de données • Systèmes de bases de données hétérogènes et réparties • Intégration de données • Gestion globale de données • Interrogation • Traitement de transactions • Recherche actuelle et perspectives G. Vargas Solar, A. Doucet : Assises GDR I3
Traitement de requêtes • Analyse syntaxique et sémantique • Transformation de la requête globale en sous requêtes locales • Génération du plan optimisé • Récupération des résultats intermédiaires et construction du résultat final Parser Réécriture Optimisation Exécution requête locale requête locale G. Vargas Solar, A. Doucet : Assises GDR I3
Traitement de requêtes • Réécriture : dépend du type de correspondance médiateur – sources • Optimisation et exécution • Sources d’information distribuées et autonomes • Indisponibilité des statistiques • Accessibilité • Communication « variée » Optimisation et exécution dynamique de requêtes • Utilisateurs • Besoins différents sur les traitement de requêtes • Difficultés d’expression • Connaissances sur les sources Spécification des contraintes d’évaluation, négociation dans le traitement pour raffiner les requêtes G. Vargas Solar, A. Doucet : Assises GDR I3
Plan • Médiation de données • Systèmes de bases de données hétérogènes et réparties • Intégration de données • Gestion globale de données • Interrogation • Traitement de transactions • Recherche actuelle et perspectives G. Vargas Solar, A. Doucet : Assises GDR I3
Traitement de transactions Mises à jour dans des systèmes multibases Synchronisation de transactions locales Hétérogénéité et autonomie de communication Autonomie locale Transactions longues • Sérialisabilité [MRB92] • Critères de cohérence relâchement de la sérialisabilité • Quasi sérialisabilité [DE89] • Sérialisabilité à deux niveaux [MRKS91] • Gestion de transactions • Longues : mise en cause des techniques de verrouillage et synchronisation • Non classiques : imbriquées [Mos85], SAGAS [GMS87], compensation [Elm92], … G. Vargas Solar, A. Doucet : Assises GDR I3
Plan • Médiation de données • Systèmes de bases de données hétérogènes et réparties • Intégration de données • Gestion globale de données • Recherche actuelle et perspectives G. Vargas Solar, A. Doucet : Assises GDR I3
Recherche actuelle perspectives • Accès aux gisements de données • Passage à l’échelle • Disponibilité • Adaptabilité aux besoins applicatifs • Intégration de données • Sémantique • Schémas • Méta données Systèmes de médiation de données, langages, interrogation, optimisation, cohérence, sécurité, intégration physique et logique, interopérabilité, fédérations de sources, indexation, … • RDV… journée de travail GT 1.3 ! G. Vargas Solar, A. Doucet : Assises GDR I3
? Merci... G. Vargas Solar, A. Doucet : Assises GDR I3