330 likes | 507 Views
Informations incomplètes dans les bases de données et en intelligence artificielle. Patrick Bosc, Laurence Cholvy, Didier Dubois, Nourredine Mouddib, Olivier Pivert, Henri Prade, Guillaume Raschia, Marie-Christine Rousset. Plan. Interrogation de BDs uniques mais incomplètes
E N D
Informations incomplètes dans les bases de données et en intelligence artificielle Patrick Bosc, Laurence Cholvy, Didier Dubois, Nourredine Mouddib, Olivier Pivert, Henri Prade, Guillaume Raschia, Marie-Christine Rousset
Plan • Interrogation de BDs • uniques mais incomplètes • multiples et intégrées via des vues • à informations imprécises • Raisonnement sur des connaissances incomplètes ou imprécises • Production d’informations incomplètes mais synthétiques
Bases de données relationnelles « classiques » • BD relationnelle : ensemble de tuples (satisfaisant des contraintes d ’intégrité) + hypothèse du monde fermé (CWA) • Modélisée parune théorie logique complète(axiomes d ’unicité des noms, axiome de fermeture du domaine, faits, axiomes de complétion) ou par son unique modèle de Herbrand
Théorie logique complète • Définition . Soit T une théorie logique (ensemble de formules). T est complète ssi f T f ou T f • Résultat. T est complète ssi l ’ensemble des clauses associées à T a un unique modèle de Herbrand
Origines de l’incomplétude dans les Bases de données 1) Extension du type d ’informations stockées : valeurs nulles, tuples conditionnels, faits disjonctifs, … tout en faisant encore la CWA 2) Ne plus faire la CWA Dans les deux cas, la BD obtenue est incomplète et peut être représentée par plusieurs modèles de Herbrand.
Interrogation des BD incomplètes • Réponses certaines/incertaines : ||Q|| = OUI ssi BD Q ||Q|| = NON ssi BD Q ||Q|| = PEUT-ETRE sinon • Calcul :Démonstrateur de théorèmes dans un ensemble de clauses non Horn (Stickel 84, Lozinski 88, Bauval-Cholvy 91) • Réponses conditionnelles: ||Q|| = OUI si Condition telle que: BD Condition Q • Calcul : algorithme de génération de telles réponses (Demolombe 92)
Interrogation (suite). • Même dans le cas où l ’on ne fait pas la CWA, on peut prendre en compte (si on la connaît) une méta-information sur la complétude de la base par rapport à une propriété particulière. (motro 89, Demolombe 97) Ex: La base est complète pour les employés du département informatique
Intégration de sources de données • Domaine de recherche en plein essor. • Construction de médiateurs • interface de requêtes entre un utilisateur et des sources de données hétérogènes et distantes. • donne l’illusion à l’utilisateur d’interroger un système homogène et centralisé.
Caractéristiques d’un médiateur • Le schéma médiateur : vocabulaire pivot pour • les requêtes • les vues modélisant le contenu des sources. • Les données : • restent stockées dans les sources, • pour le médiateur : les extensions des vues.
Répondre à une requête • Revient à répondre à une requête à partir d’extensions de vues. • répondre à une requête à partir des extensions des prédicats de la requête. • Un problème de raisonnement sur des données incomplètes.
illustration Vues : v1(X) : Réservation(X,X) Réservation(X,Y) v2(X) : Réservation(X,Y) v3(X) : Réservation(Y,X). Requête : q(X1,X2) : Réservation(X1,X2). Extensions : v1 v2 v3 a a a b c Réservation (a,a) (a,?) (a,?) (b,?) (?,a) (?,c) Seule réponse certaine à la requête pouvant être obtenue à partir des extensions de vues : (a,a).
Deux problèmes distincts • Répondre à une requête à partir d’extensions de vues • Raisonnement sur les données • Répondre à une requête par réécriture : • Réécrire la requête en termes de vues • Raisonnement sur la requête et les définitions de vues • Evaluer chaque réécriture sur les extensions des vues
Questions fondamentales • Étant données une requête et des vues, peut-on calculer toutes ses réécritures maximales ? • Dépend des langages de requêtes, de vues et de réécritures. • Peut-on calculer toutes les réponses à une requête par réécriture ? • Condition suffisante : il existe un nombre fini de réécritures maximales dans le langage des requêtes conjonctives avec prédicat d’inégalité.
Interrogation de bases possibilistes • BD possibiliste = {BD usuelles} où chaque base est plus ou moins préférée • exemple: R(id, durée, emploi) • <1, {1/5 + 0.8/4 + 0.4/6}, caissier> • <2, {1/8 + 1/10}, {1/vendeur + 0.3/caissier}> • donne lieu à 12 mondes (interprétations) dont • <1, 6, caissier> • <2, 10, caissier> est possible au degré min(0.4, 1, 0.3) = 0.3
Interrogation de bases possibilistes • Question: comment interroger de telles bases de données ? • il s’avère qu’une requête (algébrique ou autre) ne peut être étendue à une telle base que si on l’applique à chacune des interprétations, ce qui est irréaliste • exemple: r A B s B C • a {1/b1 + 1/b2} b1 c1 • b2 c2 • l’équi-jointure impose d’exprimer l’exclusivité des deux n-uplets: • <a, b1, c1> et <a, b2, c2>
Interrogation de bases possibilistes • 3 approches envisagées • - famille de requêtes dont l’évaluation peut se faire • sans passer par l’interprétation en mondes Q résultat 1 monde 1 interprétation résultat interprétation Q résultat p BD possibiliste monde p évaluation "directe"
Interrogation de bases possibilistes • - requêtes "possibilistes" du type dans quelle mesure • est-il possible que t appartienne à la réponse de la • requête Q ? • ici encore l ’évaluation peut se faire sans passer par les mondes • - requêtes dans lesquelles les conditions portent sur • la description associée aux valeurs mal connues • (aux distributions de possibilité) • exemple: trouver les images où les avions B737 et • B777 sont les deux seuls totalement préférés
Interrogation de bases possibilistes • Informations imprécises et floues en logique possibiliste (p, )N(p) ≥ nécessité {(8a(2)9a(2), 1), (8a(2), 0.5), (manager(2)caissier(2), 1), (manager(2), 0.4) • Validité et complétude incertaine M(x) : x vrai dans le monde B(x) : x figure dans la base ((B(x) arriv(x, Paris)) M(x), 1) information valide (M(x)comp(x, Air Zanzibar) B(x), 0.8) l’information peut (au degré 0.2) ne pas être complète
Information bipolaire Information négative (valeurs impossibles) - sur-ensemble d’éléments non-impossibles (NI) positive (valeurs garanties possibles) - sous-ensemble d’éléments garantis possibles (GP) paire d’ensemblesflous (π*, π*) telle que π* ≥ π* en logique possibiliste (p, ) N(p) ≥ i.e. (p)≤ 1(p) ≥ ; (p) = min{π* () t.q.p)
Raisonnement en présence d’informations incomplètes Fournir des conclusions non-triviales, plausibles, provisoires, incertaines malgré le manque d’information • Raisonnement non-monotone • Raisonnement par similarité • Raisonnement déductif bipolaire
Raisonnement déductif bipolaire règles : si X est Ai alors Y est Bi expriment que • Situations oùX est Aiet Y est non-Bi sont impossibles non Ai ou Bi combinaison conjonctive des règles : B’ = A’ i (Ai Bi) B’ = Bi si A’ = Ai • les situations oùX est Aiet Y est Bi sont garanties possibles Ai et Bi combinaison disjonctive des règles : i (Ai Bi) B’ = {y t.q. x A’ et (x,y) i(Ai Bi)} B’ = Bi si A’ = Ai
Exemple: • R1: si un employé est en catégorie 1 alors son salaire est nécessairement dans 1000, 2000 typiquementdans 1500, 1800 • R2: si un employé est en catégorie 2 alors son salaire est nécessairement dans 1500, 2500 typiquement dans 1700, 2000. • B’ = A’ i (Ai Bi) A’ = cat.1, cat.2 A1 = cat.1, B1 = 1000, 2000 A2 = cat.2, B2= 1500, 2500 B’ = B1 B2= 1000, 2500 • B’ = {y t.q. x A’ et (x,y) i(Ai Bi)}, B1 = 1500, 1800, B2 = 1700, 2000, B’ = B1 B2= 1700, 1800garanti possible
Raisonnement à base de similarité Compléter l’information manquante par un raisonnement interpolatif sur la base de relations de similarité si X est Ai alors Y est Bi et si X est Ak alors Y est Bk X est A’ ; A’ prochede Ai et de Ak alors Y est B’, B’ proche de Bi et de Bk
Raisonnement non-monotone Règles ayant des exceptions potentielles : les oiseaux volent, les manchots ne volent pas situations incomplètement décrites: Ex. : on a à affaire à un oiseau règle si A alors B représentée de manière bipolaire : - l’ensemble de ses exemplesA B - l ’ensemble de ses contre-exemplesA Bc BA = (A B, Ac B) évènement conditionnel
Raisonnement non-monotone Relation de conséquence sémantique : (BA) (DC) ssi A B C D et si A c B Cc D Prob(DC) ≥ Prob(BA) Conjonction : (BA) & (DC) = ((Ac B) (Cc D))(A C) un ensemble de règles est applicable si au moins une règle l’est Disjonction duale de & (BA) ¥ (DC) = ((A B) (C D))(AC)
«Paradoxes» de l’implication matérielle A B = Ac B • (A C) B (A B) (C B) B(A C) ≠ (BA) ¥ (BC) = B(A C) • On peut distinguer entre les règles si A alors B et si nonB alors nonA : BA et AcBc n’ont pas les mêmes exemples!
Raisonnement non-monotone A B implique (A C) B Mais BA n’entraîne pas B(A C)! règle si A et C alors B a moins d’exemples que la règle si A alors B pas d’incohérence dans la base si on a à la fois BA et Bc(A C) satisfait les postulats du système P dit d’inférence préférentielle de Kraus, Lehmann et Magidor
Le résumé de données • Pb. dans les BD volumineuses : • Granularité de l’information • Interprétation des données • Navigation et interrogation • Sol. par les résumés « linguistiques* » : • Pouvoir de synthèse • Intelligibilité des descriptions • 3 types d’approches * partitions floues/variables linguistiques/hiérarchies conceptuelles floues
Le résumé de données • Les résumés propositionnels • Q n-uplets de R étant a sur A sont b sur B • « La plupart des jeunes employés sont mal payés » • Degré de validité scalaire = Q((tR a(t.A)) / |R|) SummarySQL (Yager et Rubinson, 1981) • Degré flou de confiance Cardinalités à valeur floue (Bosc, Dubois et col., 2002)
Le résumé de données • Les résumés en termes de règles floues • Plus les n-uplets de R sont a sur A, plus ils sont b sur B • « Plus les employés sont jeunes, plus ils sont mal payés » • Appartenance à un concept vague Règles graduelles (Bosc, Liétard et Pivert, 1998) • Propriété graduelle/similarité DF floues (Rasmussen et Yager, 1999)
Le résumé de données • Les résumés à granularité variable (Différentes hauteurs de point de vue) • Q n-uplets de R étant a sur A sont b sur B • BD multidimensionnelles floues FUB (Laurent, 2001) • Résumés hiérarchiques SaintEtiQ (Raschia et Mouaddib, 2002)
Perspectives • Le résumé de données structurées • Méta-langage d’interrogation flexible : manipulation des résumés ; • Optimisation de requêtes : première réponse approchée ; • Intégration de résumés issus de différentes BD ; • Passage à l’échelle.