710 likes | 793 Views
Annotations sémantiques pour la localisation de ressources par des graphes étiquetés. Michel Chein LIRMM (Université Montpellier 2 et CNRS ). Une annotation : qu’est-ce que c’est ? (1). Annotation de quelque chose : annotation et ressource (« document enrichment »)
E N D
Annotations sémantiquespourlalocalisation de ressourcespardesgraphes étiquetés Michel Chein LIRMM (Université Montpellier 2 et CNRS ) COSI'07, Oran, juin 2007
Une annotation : qu’est-ce que c’est ? (1) • Annotation de quelque chose : annotation et ressource (« document enrichment ») • Annotation et metadonnées objectives et subjectives • Annotation sémantique : pas seulement contenu, mais aussi commentaire, remarque, usage, …(ex. dans Annotea rdf:typeAnnotation a 7 sous-classes prédéfinies : Advice, Change, Comment, Example, Explanation, Question, et SeeAlso) COSI'07, Oran, juin 2007
Une annotation : qu’est-ce que c’est ? (2) • Annotation = connaissance sur une ressource : annotation sur des annotations ( l’auteur de l’annotation #33 est un imbécile, l’auteur de la ressource R11 a été financé par l’auteur de l’annotation #12, …) • Base d’annotations sur un ensemble de ressources annotations formelles, ressources informelles (textes, images, videos,…) ou formelles (BdD, base d’annotations, base de composants, …), entre base de connaissances et index sophistiqué COSI'07, Oran, juin 2007
Comment représenter des annotations ? (1) • Il n’y a pas de « sens » dans une annotation sémantique seulement des connaissances au sens IA, i.e. des structures de données auxquelles un être humain peut donner un sens, les mettre en relation avec le « monde réel » • Knowledge-based (souvent restreint à ontology-based) semantic mark-up COSI'07, Oran, juin 2007
Comment représenter des annotations ? (2) • Annotations représentées dans un langage formel dereprésentation de connaissances (sinon les annotations ne sont que des documents en langue naturelle ex. résumés…), • ontologies ( « domain ontologies » et pas « visual descriptor ontology » ou « multimedia structure ontology ») • connaissances non explicites dans les ressources (pour compléter des annotations) • contextes (ce qui est supposé connu du lecteur) • contraintes (pour assurer une certaine cohérence des annotations) • Pour pouvoir fairedes raisonnements(déduction et autres) : réponses à une requête, complétion d’une annotation, vérification de contraintes, … COSI'07, Oran, juin 2007
Quelques autres questions importantes • liens ressources/annotations : deux bases une de ressources et une d’annotations, ou annotation dans les ressources • construction : manuelle, automatique, assistée, outil pour parcourir et fractionner les ressources • construction/usage collectif/individuel de la base d’annotations • qui construit les connaissances du système (ontologies)? • qui construit les annotations (spécialistes d’un domaine, spécialiste de documentation, tout le monde, …) ? COSI'07, Oran, juin 2007
Pourquoi des annotations : à quoi ça sert ? • Catégorisation, Certification • Recherche d’information « Semantic annotation is a specific metadata generation and usage schema, aiming to enable new information access methods and to extend the existing ones. » (Kiryakov) • Publication assistée sélectionner des parties de documents, les réutiliser pour construire un nouveau document mulimédia (recontextualisation) • Valeur ajoutée aux ressources COSI'07, Oran, juin 2007
Et le web « sémantique » ? • Ajouter des connaissances (RDF) aux documents du web • Etendre HTML pour décorer un document HTML par des connaissances (semantic XHTML, langage XTiger au dessus d’Amaya) • Notre approche est « meilleure » que RDF mais … COSI'07, Oran, juin 2007
…tout aussi insatisfaisante que RDF pour le web « sémantique » ! COSI'07, Oran, juin 2007
Ce dont je vais parler • un langage permettant de définir des annotations sémantiques, des contraintes, des règles (e.g. connaissances implicites), et des requêtes • une méthodologie pour aider à construire des annotations • un mot sur les algorithmes de recherche • tout doit être simple à construire et à comprendre (y compris les raisonnements, i.e. le pourquoi des réponses fournies) car Nimporteki doit pouvoir construire des annotations et utiliser le système COSI'07, Oran, juin 2007
Equipe RCR • Le modèle est basé sur un modèle de représentation de connaissances développé au LIRMM depuis 1992 M.-L. Mugnier, M. Leclère, O. Haemmerlé, B.Carbonneill, O. Guinaldo, E. Salvat, D. Genest, J.-F. Baget, … • et des outils COGITO, COGITANT, COGUI, A. Gutierrez, N. Moreau • Utilisés dans des applications en annotation et RI dans le cadre de divers projets : • MOGADOR (recherche documentaire, ABES et BNF) • OPALES (annotations de vidéos, INA et MSH) • SAPHIR (annotations de vidéos pour publication assistée, INA et MSH) • LOGOS (annotations de tout type de documents pour e-learning) • EIFFEL (RI tourisme) COSI'07, Oran, juin 2007
ling. analysis 1 2 politic. discourses 1 1 obj 1 1 agt agt instr 2 2 2 politicians journalists circ 1 computer sc. 1 1 circ 2 circ 2 medias 2 “L’analyse du discours assistée par ordinateur : concepts, méthodes, outils” COSI'07, Oran, juin 2007
1 2 Chat : Garfield Canapé sur 1 1 1 entre • Vocabulaire • ens. ordonné • de concepts • ens. ordonné • de relations • marqueurs • individuels [...] 2 3 2 2 Coussin Bouteille attr. Couleur : Rouge tenir 1 2 Lait cont. COSI'07, Oran, juin 2007
Chat : Garfield Canapé entre Couleur : Rouge attr. tenir cont. Une requête simple 1 2 Chat : Garfield Canapé sur Chat 1 1 1 1 proche 2 3 2 2 Coussin Bouteille 2 Couleur : Rouge Objet 1 2 1 Lait attr. G 2 Q Couleur : Rouge donc Qse déduit deG (et du vocabulaire) COSI'07, Oran, juin 2007
1 2 Chat : Garfield Canapé sur Garfield 1 1 x 1 entre 2 3 2 2 Coussin Bouteille attr. Couleur : Rouge tenir y z 1 Rouge 2 Lait u cont. xyzuChat(Garfield) Canapé(x) Coussin(y) Bouteille(z) Lait(u) Couleur(Rouge) sur(Garfield,x) entre(Garfield,y,z) tenir(Garfield,z) attr(x,Rouge) cont(z,u) Sémantique logique ainsi que les formules du vocabulaire traduisant les ordres partiels COSI'07, Oran, juin 2007
Exemple d’ontologie simple estAuteurDe(Personne,Document) Universel estRéalisateurDe(Personne,Vidéo) EtreVivant Document X Vidéo Image Personne X Journaliste Homme PPDA Journaliste Femme http://www.icones.bg/ic37.jpg Image X COSI'07, Oran, juin 2007
Ontologie • Une ontologie (simple) GC : • Tc un ensemble de types de concepts ordonnés • B ensemble d’ensembles de types de concepts interdits • Tr un ensemble de types de relations ordonnés • Sr : TrTc* définissant la signature des relations • I un ensemble d’individus ontologiques COSI'07, Oran, juin 2007
Exemple (Règles) R1 Chercheur Equipe membre « Tout chercheur est membre d'une équipe » x (Chercheur (x) y Equipe(y) membre(x,y)) R2 Person Person coll coll « La relation 'collabore' est symétrique » x y ( coll(x,y) coll(y,x)) COSI'07, Oran, juin 2007
Exemple (Contraintes) membre membre Equipe Equipe membre membre Person Person Person Person aff aff aff aff Bureau Bureau Contrainte négative "Synergie inter-équipes" Contrainte positive"Cloisonnement" COSI'07, Oran, juin 2007
Langage de données et de requêtes • Fondamentalement des graphes bipartis étiquetés • Une classe de sommets représentant des entités (analogie : mots-clés) • l’autre classe des relations entre ces entités (analogie : relations sémantiques entre les mots-clés, agent , instrument, …) • les étiquettes sont ordonnées (spéc./géné.) • Pourquoi des graphes étiquetés ? • un langage utilisable par des non informaticiens, facilement visualisable • suffisamment riche et extensible • bons algorithmes COSI'07, Oran, juin 2007
member in in in Project:P Query Q Fact G member member Person Person worksWith Researcher Researcher:K Researcher:J member member worksWith Office Project Project Office:#124 near Q: “Are there people working together, who are each member of a project?” COSI'07, Oran, juin 2007
member in in in near Project:P member member Person Person worksWith Researcher Researcher:K Researcher:J member member worksWith Office Project Project Office:#124 Query Q Fact G COSI'07, Oran, juin 2007
Homomorphisme de graphes • Un homomorphismeh de G=(VG, EG) dans H=(VH,EH) est une application de VG dans VH qui préserve les arcs : • si (x,y) est dans EG, alors (h(x),h(y)) est dans EH d 1 2 c G 3 b H a • Homomorphisme de graphes bipartis étiquetés ajoutent • des conditions sur la structure et sur les étiquettes labels COSI'07, Oran, juin 2007
T p p p p p p p T Spécialisation/Généralisation relation de préordre sur les SGs GH (HG) ssi il existe un homomorphisme de G dans H G est plus général que H H est plus spécifique que G T T T T T T T COSI'07, Oran, juin 2007
Vocabulaire S t < t’r < r’ SGs Base logique F predicats, constantesx t(x) t’(x)x1... xk r(x1,..., xk) r’(x1,..., xk) F ( , )fbfs • Homomorphisme équivalent à la déduction Consistance: si G H alors F(G) est déductible de F(H), F(S) Complétude: si F(G) est déductible de F(H), F(S) alors G H • le SG modèle est équivalent au fragment FOL( , ) • (on peut se débarasser des quantificateurs universels) COSI'07, Oran, juin 2007
Problèmes équivalents • Hom de graphes étiquetésEtant donnés deux SGs G et H, H G? • Hom d’hypergraphes étiquetés • Hom de structure relationnelle • CSPUn réseau de contraintes est-il satisfiable? • Inclusion de requêtes conjonctives Etant données deux requêtes conjonctives Q et Q’, Q contient-elle Q’ ? • Déduction dans le fragment positif, conjonctif et existentiel de FOL COSI'07, Oran, juin 2007
Une extension : la négation atomique • Deux problèmes de décision fondamentaux : • Déduction (Q se déduit-il de la base B?) • Existence d'une réponse (B contient-elle une réponse définie à Q?) Sur les SGs ces problèmes sont les mêmes Avec négation ce n’est plus le cas COSI'07, Oran, juin 2007
vert vert sur sur sur vert ¬vert ¬vert ¬vert Négation atomique dans les SGs [hypothèse du monde ouvert] G Q Cube : A Cube Cube : B Objet Déduction : oui Existence d'une réponse : non ? A (correspond à la déduction en logique intuitionniste) Cube : C B C COSI'07, Oran, juin 2007
Une autre extension : les graphes typés emboîtés • les graphes sont typés par un type d’annotation (e.g. contenu, thème, rhétorique, commentaire, …) • le vocabulaire est décomposé en modules, un module définit le vocabulaire utilisable pour un type d’annotation • structure hiérarchique : on peut mettre une boîte (un graphe) dans une boîte (un sommet concept) COSI'07, Oran, juin 2007
Différents contenus sémantiques • Le contenu sémantique d’une annotation peut être décrit selon plusieurs domaines • Rhétorique • Pragmatique • Thématique • Médias • MatièresAV • Tournage • Physique • A tout « domaine » est associé une ontologie (de domaine) • Contrainte Les graphes dans un type d’emboîtement sont construits en utilisant uniquement le vocabulaire de l’ontologie de domaine associée à ce type de graphes COSI'07, Oran, juin 2007
Une seule ontologie (modulaire) • Deux domaines peuvent partager une partie de leur vocabulaire • Ex. des JT : le thème d’une séquence est une personne (thématique), et cette personne est à l’écran (Médias) • Tous les graphes d’une base d’annotation sont construits relativement à une unique ontologie mais chaque emboîtement est relatif à une sous-ontologie de cette ontologie COSI'07, Oran, juin 2007
Ontologie modulaire Universel EtreVivant Document X Vidéo Image Personne X Journaliste Medias Homme Femme X Personnes COSI'07, Oran, juin 2007
Annotation : idD01 Physique belongsTo Icon : http...ic37.jpg createdBy Anonym : * Oil : * medium School : Y Entity : Chania location support Wood : * timeLoc Century : XVIe Description holding Baby :TheChild Entity : Virgin COSI'07, Oran, juin 2007
Graphe final (base d’annotations) auteur Person : PatrickC Annotation : idD01 Physique Icon : http...ic37.jpg createdBy Anonym : * belongsTo auteur medium Oil : * School : Y location Entity : Chania support Wood : * timeLoc Century : XVIe Description détail Entity : Virgin holding Baby :TheChild Annotation : idD02 Description Eye :* isPartOf Entity : Virgin COSI'07, Oran, juin 2007
Méthodologie pour construire des annotations • Une ontologie (vocabulaire, contraintes, règles) partagée • Des (graphes) patrons d’annotation pour un type • Des (graphes) prototypiques pour un type de concept ou de relation • Des graphes individuels COSI'07, Oran, juin 2007
Graphe patron COSI'07, Oran, juin 2007
Graphe prototypique COSI'07, Oran, juin 2007
Prototype d’une relation COSI'07, Oran, juin 2007
Réponses approchées, plausibles, partielles • se limiter aux réponses exactes silence • réponses inexactes basées sur le principe d’incertitude de van Rijsbergen “ Given any two sentences d and q the measure of the uncertainty of d → q relative to a knowledge set, is determined by the minimal transformation of d in d’, to establish the truth of d’ → q ” • rend “vivante” la base d’annotations COSI'07, Oran, juin 2007
Les transformations • Substitutions d’une étiquette compatible à une autre réponses approchées • Identifications de deux sommets (joints) (+ substitutions) réponses plausibles ( nbre de joints) • Ajouts de concepts réponses partielles ( nbre de concepts ajoutés, nbre de relations ajoutées) COSI'07, Oran, juin 2007
Mise en oeuvre (1) • MOGADOR • thesaurus RAMEAU • 400.000 termes • UF (Used For), SA (See Also), BT (Broader Topic), NT (Narrower Topic), RT (Related Topic) • 12 relations (obj, time, loc, geo, agt, comp, …) COSI'07, Oran, juin 2007
Mise en oeuvre (2) • compatible-term(x,y) : il existe un chemin de y à x tel que sa lg 4, le nbre de RT est 1, le nbre de NT et le nbre de BT sont 2, le nbre de SA et le nbre de UF sont 3 • compatible-relation(x,y) : 2 relations qcq sont compatibles. • acceptable-sequence(s) • quasi-ordre total s ≤ s’ (fonction de ranking) COSI'07, Oran, juin 2007
Mise en oeuvre (3) • C0 séquence vide. • C1 séquences de substitutions de termes utilisant SA. • C2 séquences de subst. de termes utilisant SA and UF. • C3 séquences de subst. de termes utilisant SA, UF et BT. • C4 séquences de subst. de termes utilisant SA, UF, BT et NT. • C5 séquences de subst. de termes utilisant les 5 relations. • C6 séquences de subst. de termes ou de relations . • C0 C1 C2 C3 C4 C5 C6 • s Ci-Ci−1, i = 1, ..., 6, et s’Cjet j <i s’< s • s, s’Ci-Ci−1, s’ ≤ s ssi lg(s’)≤lg(s) COSI'07, Oran, juin 2007
Mise en oeuvre (4) • C7 séquences de substitutions d’étiquettes et de joints. • C6 C7. • C8 séquences de substitutions d’étiquettes et de joints et d’ajouts de relations. • C7 C8. • C9 séquences de substitutions d’étiquettes et de joints et d’ajouts de termes ou de relations. • C8 C9 • s Ci-Ci−1, i = 1, ..., 9, et d sCj et j < i , s’< s • s, s’Ci-Ci−1, s’ ≤ s ssi lg(s’)≤lg(s) COSI'07, Oran, juin 2007
ling. analysis 1 2 politic. discourses 1 1 obj 1 1 agt agt instr 2 2 2 politicians journalists circ 1 computer sc. 1 1 circ 2 circ 2 medias 2 “Expression d’idées politiques dans la presse écrite” political ideas 1 2 newspapers circ COSI'07, Oran, juin 2007
pol. ideas BT pol. sciences NT pol. communication NT pol. language UF pol. discourses ling. analysis politic. ideas 1 1 obj 1 1 1 agt agt instr politicians journalists circ 1 computer sc. 1 1 circ circ medias COSI'07, Oran, juin 2007