1 / 13

Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P. Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid. Contexte et problématique. Les applications modernes sont caractérisées par :

boyd
Download Presentation

Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid

  2. Contexte et problématique • Les applications modernes sont caractérisées par : • Une gestion de données dans des environnements distribués et à large échelle !! • Les BDDs sont conçues indépendamment i.e. hétérogènes sur l’ensemble des sites du réseau !!

  3. Contexte et problématique • Dans notre cas, la structure du réseau suit une logique P2P • Il faut rajouter toutes les contraintes liées à celle là • La problématique traitée dans notre cas est liée essentiellement à l’hétérogénéité des schémas

  4. Contexte et problématique • On doit réconcilier les différentes sources de données : • Trouver toutes les correspondances entre les différents schémas de données • Transférer les données d’un Pair à un autre Exemple de Mapping entre deux schémas

  5. Contexte et problématique • Les outils développés pour la découverte et la génération des Mappings sont : • Semi-automatiques (intervention de l’expert du domaine) • Moins performants (temps de calcule) • D’une qualité critiquable (précision, et rappel )

  6. Quelques approches sur la découverte des mappings • Le Mapping d’ontologies [OMWG] (alignement d’ontologies) • Découverte syntaxique (String Matching) • Découverte sémantique (Dictionnaires et thesaurus) • La théorie des graphes [Yuan An, Sergey Melnik, R. Miller et autres] • Matching de graphes (Expressions de mappings) • L’inférence sur les tables de mappings (Data Mapping) [Anastasios Kementsietsidis, R. Miller et autres] • Découvrir des nouveaux mappings indirectes • Et autre …

  7. Proposition … • Notre approche comporte deux étapes : • Premièrement, on génère un modèle statistique (matrice de co-occurence) pour chacun des schémas qui seront ajustés grâce à LSA • Puis, on minimise la distance Euclidienne entre les deux modèles pour avoir les mappings recherchés

  8. Proposition … • Entrés • Des requêtes Stockées sous forme (SELECTE, FROM, WHERE) • Sorties • L’ensemble des correspondances entre les attributs des deux schémas S2 S1 ?? Q1 Q2 Q1 Q2 ?? Application de l’approche

  9. Etape 1: Génération des modèles statistiques (Matrices) • LSA ? « Latent semantic Analysis » • une approche statistique: • Fondée sur la notion de co-occurrence d’éléments dans un contexte • Utilise la SVD (Singular Value Decomposition) • Découvre des relations profondes (cachées) entre les éléments d’un même schéma • Une méthode largement utilisée dans les moteurs de recherche (Google)

  10. Exemple d’application de la LSA

  11. Exemple d’application de la LSA Décomposition de la matrice de correspondances (X) par la SVD

  12. Etape 2: Comparaison des modèles • Construire les matrices de co-occurrence des éléments de chaque schéma C1= X1*XT1 et C2= X2*XT2 • Minimiser la distance Euclidienne entre les deux modèles • Représenter les deux matrices sous forme de graphes d’adjacence • Trouver le matching entre les deux graphes qui minimise la distance euclidienne (Hill Climbing)

  13. C1 A1 A2 .… A6 C2 B1 B2 .… B6 X1 X2 …. X6 A1 A2 … A6 Y1 Y2 …. Y6 B1 B2 … B6 Comparaison des modèles Distance Euclidienne (Dé-similarité) B3 A1 B1 A4 A2 B2 B5 A3 A5 B6 B4 A6 Minimisation de la distance euclidienne

More Related