1 / 32

Informations incomplètes dans les bases de données et en intelligence artificielle

Informations incomplètes dans les bases de données et en intelligence artificielle. Patrick Bosc, Laurence Cholvy, Didier Dubois, Nourredine Mouddib, Olivier Pivert, Henri Prade, Guillaume Raschia, Marie-Christine Rousset. Plan. Interrogation de BDs uniques mais incomplètes

maille
Download Presentation

Informations incomplètes dans les bases de données et en intelligence artificielle

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Informations incomplètes dans les bases de données et en intelligence artificielle Patrick Bosc, Laurence Cholvy, Didier Dubois, Nourredine Mouddib, Olivier Pivert, Henri Prade, Guillaume Raschia, Marie-Christine Rousset

  2. Plan • Interrogation de BDs • uniques mais incomplètes • multiples et intégrées via des vues • à informations imprécises • Raisonnement sur des connaissances incomplètes ou imprécises • Production d’informations incomplètes mais synthétiques

  3. Bases de données relationnelles « classiques » • BD relationnelle : ensemble de tuples (satisfaisant des contraintes d ’intégrité) + hypothèse du monde fermé (CWA) • Modélisée parune théorie logique complète(axiomes d ’unicité des noms, axiome de fermeture du domaine, faits, axiomes de complétion) ou par son unique modèle de Herbrand

  4. Théorie logique complète • Définition . Soit T une théorie logique (ensemble de formules). T est complète ssi f T f ou T  f • Résultat. T est complète ssi l ’ensemble des clauses associées à T a un unique modèle de Herbrand

  5. Origines de l’incomplétude dans les Bases de données 1) Extension du type d ’informations stockées : valeurs nulles, tuples conditionnels, faits disjonctifs, … tout en faisant encore la CWA 2) Ne plus faire la CWA Dans les deux cas, la BD obtenue est incomplète et peut être représentée par plusieurs modèles de Herbrand.

  6. Interrogation des BD incomplètes • Réponses certaines/incertaines : ||Q|| = OUI ssi BD  Q ||Q|| = NON ssi BD   Q ||Q|| = PEUT-ETRE sinon • Calcul :Démonstrateur de théorèmes dans un ensemble de clauses non Horn (Stickel 84, Lozinski 88, Bauval-Cholvy 91) • Réponses conditionnelles: ||Q|| = OUI si Condition telle que: BD  Condition  Q • Calcul : algorithme de génération de telles réponses (Demolombe 92)

  7. Interrogation (suite). • Même dans le cas où l ’on ne fait pas la CWA, on peut prendre en compte (si on la connaît) une méta-information sur la complétude de la base par rapport à une propriété particulière. (motro 89, Demolombe 97) Ex: La base est complète pour les employés du département informatique

  8. Intégration de sources de données • Domaine de recherche en plein essor. • Construction de médiateurs • interface de requêtes entre un utilisateur et des sources de données hétérogènes et distantes. • donne l’illusion à l’utilisateur d’interroger un système homogène et centralisé.

  9. Caractéristiques d’un médiateur • Le schéma médiateur : vocabulaire pivot pour • les requêtes • les vues modélisant le contenu des sources. • Les données : • restent stockées dans les sources, • pour le médiateur : les extensions des vues.

  10. Répondre à une requête • Revient à répondre à une requête à partir d’extensions de vues. • répondre à une requête à partir des extensions des prédicats de la requête. • Un problème de raisonnement sur des données incomplètes.

  11. illustration Vues : v1(X) : Réservation(X,X)  Réservation(X,Y) v2(X) : Réservation(X,Y) v3(X) : Réservation(Y,X). Requête : q(X1,X2) : Réservation(X1,X2). Extensions : v1 v2 v3 a a a b c Réservation (a,a) (a,?) (a,?) (b,?) (?,a) (?,c) Seule réponse certaine à la requête pouvant être obtenue à partir des extensions de vues : (a,a).

  12. Deux problèmes distincts • Répondre à une requête à partir d’extensions de vues • Raisonnement sur les données • Répondre à une requête par réécriture : • Réécrire la requête en termes de vues • Raisonnement sur la requête et les définitions de vues • Evaluer chaque réécriture sur les extensions des vues

  13. Questions fondamentales • Étant données une requête et des vues, peut-on calculer toutes ses réécritures maximales ? • Dépend des langages de requêtes, de vues et de réécritures. • Peut-on calculer toutes les réponses à une requête par réécriture ? • Condition suffisante : il existe un nombre fini de réécritures maximales dans le langage des requêtes conjonctives avec prédicat d’inégalité.

  14. Interrogation de bases possibilistes • BD possibiliste = {BD usuelles} où chaque base est plus ou moins préférée • exemple: R(id, durée, emploi) • <1, {1/5 + 0.8/4 + 0.4/6}, caissier> • <2, {1/8 + 1/10}, {1/vendeur + 0.3/caissier}> • donne lieu à 12 mondes (interprétations) dont • <1, 6, caissier> • <2, 10, caissier> est possible au degré min(0.4, 1, 0.3) = 0.3

  15. Interrogation de bases possibilistes • Question: comment interroger de telles bases de données ? • il s’avère qu’une requête (algébrique ou autre) ne peut être étendue à une telle base que si on l’applique à chacune des interprétations, ce qui est irréaliste • exemple: r A B s B C • a {1/b1 + 1/b2} b1 c1 • b2 c2 • l’équi-jointure impose d’exprimer l’exclusivité des deux n-uplets: • <a, b1, c1> et <a, b2, c2>

  16. Interrogation de bases possibilistes • 3 approches envisagées • - famille de requêtes dont l’évaluation peut se faire • sans passer par l’interprétation en mondes Q résultat 1 monde 1 interprétation résultat interprétation Q résultat p BD possibiliste monde p évaluation "directe"

  17. Interrogation de bases possibilistes • - requêtes "possibilistes" du type dans quelle mesure • est-il possible que t appartienne à la réponse de la • requête Q ? • ici encore l ’évaluation peut se faire sans passer par les mondes • - requêtes dans lesquelles les conditions portent sur • la description associée aux valeurs mal connues • (aux distributions de possibilité) • exemple: trouver les images où les avions B737 et • B777 sont les deux seuls totalement préférés

  18. Interrogation de bases possibilistes • Informations imprécises et floues en logique possibiliste (p, )N(p) ≥ nécessité {(8a(2)9a(2), 1), (8a(2), 0.5), (manager(2)caissier(2), 1), (manager(2), 0.4) • Validité et complétude incertaine M(x) : x vrai dans le monde B(x) : x figure dans la base ((B(x) arriv(x, Paris))  M(x), 1) information valide (M(x)comp(x, Air Zanzibar)  B(x), 0.8) l’information peut (au degré 0.2) ne pas être complète

  19. Information bipolaire Information négative (valeurs impossibles) - sur-ensemble d’éléments non-impossibles (NI) positive (valeurs garanties possibles) - sous-ensemble d’éléments garantis possibles (GP) paire d’ensemblesflous (π*, π*) telle que π* ≥ π* en logique possibiliste (p, ) N(p) ≥  i.e. (p)≤ 1(p) ≥ ; (p) = min{π* () t.q.p)

  20. Raisonnement en présence d’informations incomplètes Fournir des conclusions non-triviales, plausibles, provisoires, incertaines malgré le manque d’information • Raisonnement non-monotone • Raisonnement par similarité • Raisonnement déductif bipolaire

  21. Raisonnement déductif bipolaire règles : si X est Ai alors Y est Bi expriment que • Situations oùX est Aiet Y est non-Bi sont impossibles non Ai ou Bi combinaison conjonctive des règles : B’ = A’ i (Ai Bi) B’ = Bi si A’ = Ai • les situations oùX est Aiet Y est Bi sont garanties possibles Ai et Bi combinaison disjonctive des règles : i (Ai Bi) B’ = {y t.q.  x  A’ et (x,y) i(Ai Bi)} B’ = Bi si A’ = Ai

  22. Exemple: • R1: si un employé est en catégorie 1 alors son salaire est nécessairement dans 1000, 2000 typiquementdans 1500, 1800 • R2: si un employé est en catégorie 2 alors son salaire est nécessairement dans 1500, 2500 typiquement dans 1700, 2000. • B’ = A’ i (Ai Bi) A’ = cat.1, cat.2 A1 = cat.1, B1 = 1000, 2000 A2 = cat.2, B2= 1500, 2500 B’ = B1  B2= 1000, 2500 • B’ = {y t.q.  x  A’ et (x,y) i(Ai Bi)}, B1 = 1500, 1800, B2 = 1700, 2000, B’ = B1  B2= 1700, 1800garanti possible

  23. Raisonnement à base de similarité Compléter l’information manquante par un raisonnement interpolatif sur la base de relations de similarité si X est Ai alors Y est Bi et si X est Ak alors Y est Bk X est A’ ; A’ prochede Ai et de Ak alors Y est B’, B’ proche de Bi et de Bk

  24. Raisonnement non-monotone Règles ayant des exceptions potentielles : les oiseaux volent, les manchots ne volent pas situations incomplètement décrites: Ex. : on a à affaire à un oiseau règle si A alors B représentée de manière bipolaire : - l’ensemble de ses exemplesA  B - l ’ensemble de ses contre-exemplesA  Bc BA = (A  B, Ac B) évènement conditionnel

  25. Raisonnement non-monotone Relation de conséquence sémantique : (BA)  (DC) ssi A  B  C  D et si A c B  Cc D  Prob(DC) ≥ Prob(BA) Conjonction : (BA) & (DC) = ((Ac B)  (Cc D))(A  C) un ensemble de règles est applicable si au moins une règle l’est Disjonction duale de & (BA) ¥ (DC) = ((A  B)  (C  D))(AC)

  26. «Paradoxes» de l’implication matérielle A  B = Ac B • (A  C)  B  (A  B)  (C  B) B(A  C) ≠ (BA) ¥ (BC) = B(A  C) • On peut distinguer entre les règles si A alors B et si nonB alors nonA : BA et AcBc n’ont pas les mêmes exemples!

  27. Raisonnement non-monotone A  B implique (A  C)  B Mais BA n’entraîne pas B(A  C)! règle si A et C alors B a moins d’exemples que la règle si A alors B  pas d’incohérence dans la base si on a à la fois BA et Bc(A  C)  satisfait les postulats du système P dit d’inférence préférentielle de Kraus, Lehmann et Magidor

  28. Le résumé de données • Pb. dans les BD volumineuses : • Granularité de l’information • Interprétation des données • Navigation et interrogation • Sol. par les résumés « linguistiques* » : • Pouvoir de synthèse • Intelligibilité des descriptions • 3 types d’approches * partitions floues/variables linguistiques/hiérarchies conceptuelles floues

  29. Le résumé de données • Les résumés propositionnels • Q n-uplets de R étant a sur A sont b sur B • « La plupart des jeunes employés sont mal payés » • Degré de validité scalaire = Q((tR a(t.A)) / |R|) SummarySQL (Yager et Rubinson, 1981) • Degré flou de confiance Cardinalités à valeur floue (Bosc, Dubois et col., 2002)

  30. Le résumé de données • Les résumés en termes de règles floues • Plus les n-uplets de R sont a sur A, plus ils sont b sur B • « Plus les employés sont jeunes, plus ils sont mal payés » • Appartenance à un concept vague Règles graduelles (Bosc, Liétard et Pivert, 1998) • Propriété graduelle/similarité DF floues (Rasmussen et Yager, 1999)

  31. Le résumé de données • Les résumés à granularité variable (Différentes hauteurs de point de vue) • Q n-uplets de R étant a sur A sont b sur B • BD multidimensionnelles floues FUB (Laurent, 2001) • Résumés hiérarchiques SaintEtiQ (Raschia et Mouaddib, 2002)

  32. Perspectives • Le résumé de données structurées • Méta-langage d’interrogation flexible : manipulation des résumés ; • Optimisation de requêtes : première réponse approchée ; • Intégration de résumés issus de différentes BD ; • Passage à l’échelle.

More Related