1 / 71

Annotations sémantiques pour la localisation de ressources par des graphes étiquetés

Annotations sémantiques pour la localisation de ressources par des graphes étiquetés. Michel Chein LIRMM (Université Montpellier 2 et CNRS ). Une annotation : qu’est-ce que c’est ? (1). Annotation de quelque chose  : annotation et ressource (« document enrichment »)

johnna
Download Presentation

Annotations sémantiques pour la localisation de ressources par des graphes étiquetés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Annotations sémantiquespourlalocalisation de ressourcespardesgraphes étiquetés Michel Chein LIRMM (Université Montpellier 2 et CNRS ) COSI'07, Oran, juin 2007

  2. Une annotation : qu’est-ce que c’est ? (1) • Annotation de quelque chose : annotation et ressource (« document enrichment ») • Annotation et metadonnées objectives et subjectives • Annotation sémantique : pas seulement contenu, mais aussi commentaire, remarque, usage, …(ex. dans Annotea rdf:typeAnnotation a 7 sous-classes prédéfinies : Advice, Change, Comment, Example, Explanation, Question, et SeeAlso) COSI'07, Oran, juin 2007

  3. Une annotation : qu’est-ce que c’est ? (2) • Annotation = connaissance sur une ressource : annotation sur des annotations ( l’auteur de l’annotation #33 est un imbécile, l’auteur de la ressource R11 a été financé par l’auteur de l’annotation #12, …) • Base d’annotations sur un ensemble de ressources annotations formelles, ressources informelles (textes, images, videos,…) ou formelles (BdD, base d’annotations, base de composants, …), entre base de connaissances et index sophistiqué COSI'07, Oran, juin 2007

  4. Comment représenter des annotations ? (1) • Il n’y a pas de « sens » dans une annotation sémantique seulement des connaissances au sens IA, i.e. des structures de données auxquelles un être humain peut donner un sens, les mettre en relation avec le « monde réel » • Knowledge-based (souvent restreint à ontology-based) semantic mark-up COSI'07, Oran, juin 2007

  5. Comment représenter des annotations ? (2) • Annotations représentées dans un langage formel dereprésentation de connaissances (sinon les annotations ne sont que des documents en langue naturelle ex. résumés…), • ontologies ( « domain ontologies » et pas « visual descriptor ontology » ou « multimedia structure ontology ») • connaissances non explicites dans les ressources (pour compléter des annotations) • contextes (ce qui est supposé connu du lecteur) • contraintes (pour assurer une certaine cohérence des annotations) • Pour pouvoir fairedes raisonnements(déduction et autres) : réponses à une requête, complétion d’une annotation, vérification de contraintes, … COSI'07, Oran, juin 2007

  6. Quelques autres questions importantes • liens ressources/annotations : deux bases une de ressources et une d’annotations, ou annotation dans les ressources • construction : manuelle, automatique, assistée, outil pour parcourir et fractionner les ressources • construction/usage collectif/individuel de la base d’annotations • qui construit les connaissances du système (ontologies)? • qui construit les annotations (spécialistes d’un domaine, spécialiste de documentation, tout le monde, …) ? COSI'07, Oran, juin 2007

  7. Pourquoi des annotations : à quoi ça sert ? • Catégorisation, Certification • Recherche d’information « Semantic annotation is a specific metadata generation and usage schema, aiming to enable new information access methods and to extend the existing ones. » (Kiryakov) • Publication assistée sélectionner des parties de documents, les réutiliser pour construire un nouveau document mulimédia (recontextualisation)  • Valeur ajoutée aux ressources COSI'07, Oran, juin 2007

  8. Et le web « sémantique » ? • Ajouter des connaissances (RDF) aux documents du web • Etendre HTML pour décorer un document HTML par des connaissances (semantic XHTML, langage XTiger au dessus d’Amaya) • Notre approche est « meilleure » que RDF mais … COSI'07, Oran, juin 2007

  9. …tout aussi insatisfaisante que RDF pour le web « sémantique » ! COSI'07, Oran, juin 2007

  10. Ce dont je vais parler • un langage permettant de définir des annotations sémantiques, des contraintes, des règles (e.g. connaissances implicites), et des requêtes • une méthodologie pour aider à construire des annotations • un mot sur les algorithmes de recherche • tout doit être simple à construire et à comprendre (y compris les raisonnements, i.e. le pourquoi des réponses fournies) car Nimporteki doit pouvoir construire des annotations et utiliser le système COSI'07, Oran, juin 2007

  11. Equipe RCR • Le modèle est basé sur un modèle de représentation de connaissances développé au LIRMM depuis 1992 M.-L. Mugnier, M. Leclère, O. Haemmerlé, B.Carbonneill, O. Guinaldo, E. Salvat, D. Genest, J.-F. Baget, … • et des outils COGITO, COGITANT, COGUI, A. Gutierrez, N. Moreau • Utilisés dans des applications en annotation et RI dans le cadre de divers projets : • MOGADOR (recherche documentaire, ABES et BNF) • OPALES (annotations de vidéos, INA et MSH) • SAPHIR (annotations de vidéos pour publication assistée, INA et MSH) • LOGOS (annotations de tout type de documents pour e-learning) • EIFFEL (RI tourisme) COSI'07, Oran, juin 2007

  12. COSI'07, Oran, juin 2007

  13. COSI'07, Oran, juin 2007

  14. COSI'07, Oran, juin 2007

  15. ling. analysis 1 2 politic. discourses 1 1 obj 1 1 agt agt instr 2 2 2 politicians journalists circ 1 computer sc. 1 1 circ 2 circ 2 medias 2 “L’analyse du discours assistée par ordinateur : concepts, méthodes, outils” COSI'07, Oran, juin 2007

  16. 1 2 Chat : Garfield Canapé sur 1 1 1 entre • Vocabulaire • ens. ordonné • de concepts • ens. ordonné • de relations • marqueurs • individuels [...] 2 3 2 2 Coussin Bouteille attr. Couleur : Rouge tenir 1 2 Lait cont. COSI'07, Oran, juin 2007

  17. Chat : Garfield Canapé entre Couleur : Rouge attr. tenir cont. Une requête simple 1 2 Chat : Garfield Canapé sur Chat 1 1 1 1 proche 2 3 2 2 Coussin Bouteille 2 Couleur : Rouge Objet 1 2 1 Lait attr. G 2 Q Couleur : Rouge donc Qse déduit deG (et du vocabulaire) COSI'07, Oran, juin 2007

  18. 1 2 Chat : Garfield Canapé sur Garfield 1 1 x 1 entre 2 3 2 2 Coussin Bouteille attr. Couleur : Rouge tenir y z 1 Rouge 2 Lait u cont. xyzuChat(Garfield)  Canapé(x)  Coussin(y)  Bouteille(z)  Lait(u)  Couleur(Rouge) sur(Garfield,x)  entre(Garfield,y,z)  tenir(Garfield,z)  attr(x,Rouge)  cont(z,u) Sémantique logique ainsi que les formules du vocabulaire traduisant les ordres partiels COSI'07, Oran, juin 2007

  19. Exemple d’ontologie simple estAuteurDe(Personne,Document) Universel estRéalisateurDe(Personne,Vidéo) EtreVivant Document X Vidéo Image Personne X Journaliste Homme PPDA  Journaliste Femme http://www.icones.bg/ic37.jpg Image X COSI'07, Oran, juin 2007

  20. COSI'07, Oran, juin 2007

  21. Ontologie • Une ontologie (simple) GC : • Tc un ensemble de types de concepts ordonnés • B ensemble d’ensembles de types de concepts interdits • Tr un ensemble de types de relations ordonnés • Sr : TrTc* définissant la signature des relations • I un ensemble d’individus ontologiques COSI'07, Oran, juin 2007

  22. Exemple (Règles) R1 Chercheur Equipe membre « Tout chercheur est membre d'une équipe »  x (Chercheur (x)   y Equipe(y)  membre(x,y)) R2 Person Person coll coll « La relation 'collabore' est symétrique »  x  y ( coll(x,y)  coll(y,x)) COSI'07, Oran, juin 2007

  23. Exemple (Contraintes) membre membre Equipe Equipe membre membre Person Person Person Person aff aff aff aff Bureau Bureau Contrainte négative "Synergie inter-équipes" Contrainte positive"Cloisonnement" COSI'07, Oran, juin 2007

  24. Langage de données et de requêtes • Fondamentalement des graphes bipartis étiquetés • Une classe de sommets représentant des entités (analogie : mots-clés) • l’autre classe des relations entre ces entités (analogie : relations sémantiques entre les mots-clés, agent , instrument, …) • les étiquettes sont ordonnées (spéc./géné.) • Pourquoi des graphes étiquetés ? • un langage utilisable par des non informaticiens, facilement visualisable • suffisamment riche et extensible • bons algorithmes COSI'07, Oran, juin 2007

  25. member in in in Project:P Query Q Fact G member member Person Person worksWith Researcher Researcher:K Researcher:J member member worksWith Office Project Project Office:#124 near Q: “Are there people working together, who are each member of a project?” COSI'07, Oran, juin 2007

  26. member in in in near Project:P member member Person Person worksWith Researcher Researcher:K Researcher:J member member worksWith Office Project Project Office:#124 Query Q Fact G COSI'07, Oran, juin 2007

  27. Homomorphisme de graphes • Un homomorphismeh de G=(VG, EG) dans H=(VH,EH) est une application de VG dans VH qui préserve les arcs : • si (x,y) est dans EG, alors (h(x),h(y)) est dans EH d 1 2 c G 3 b H a • Homomorphisme de graphes bipartis étiquetés ajoutent • des conditions sur la structure et sur les étiquettes labels COSI'07, Oran, juin 2007

  28. T p p p p p p p T Spécialisation/Généralisation relation de préordre sur les SGs GH (HG) ssi il existe un homomorphisme de G dans H G est plus général que H H est plus spécifique que G T T T T T T T COSI'07, Oran, juin 2007

  29. Vocabulaire S t < t’r < r’ SGs Base logique F predicats, constantesx t(x)  t’(x)x1... xk r(x1,..., xk)  r’(x1,..., xk) F ( , )fbfs • Homomorphisme équivalent à la déduction Consistance: si G  H alors F(G) est déductible de F(H), F(S) Complétude: si F(G) est déductible de F(H), F(S) alors G  H • le SG modèle est équivalent au fragment FOL( , ) • (on peut se débarasser des quantificateurs universels) COSI'07, Oran, juin 2007

  30. Problèmes équivalents • Hom de graphes étiquetésEtant donnés deux SGs G et H, H G? • Hom d’hypergraphes étiquetés • Hom de structure relationnelle • CSPUn réseau de contraintes est-il satisfiable? • Inclusion de requêtes conjonctives Etant données deux requêtes conjonctives Q et Q’, Q contient-elle Q’ ? • Déduction dans le fragment positif, conjonctif et existentiel de FOL COSI'07, Oran, juin 2007

  31. Une extension : la négation atomique • Deux problèmes de décision fondamentaux : • Déduction (Q se déduit-il de la base B?) • Existence d'une réponse (B contient-elle une réponse définie à Q?) Sur les SGs ces problèmes sont les mêmes Avec négation ce n’est plus le cas COSI'07, Oran, juin 2007

  32. vert vert sur sur sur vert ¬vert ¬vert ¬vert Négation atomique dans les SGs [hypothèse du monde ouvert] G Q Cube : A Cube Cube : B Objet Déduction : oui Existence d'une réponse : non ? A (correspond à la déduction en logique intuitionniste) Cube : C B C COSI'07, Oran, juin 2007

  33. Une autre extension : les graphes typés emboîtés • les graphes sont typés par un type d’annotation (e.g. contenu, thème, rhétorique, commentaire, …) • le vocabulaire est décomposé en modules, un module définit le vocabulaire utilisable pour un type d’annotation • structure hiérarchique : on peut mettre une boîte (un graphe) dans une boîte (un sommet concept) COSI'07, Oran, juin 2007

  34. Différents contenus sémantiques • Le contenu sémantique d’une annotation peut être décrit selon plusieurs domaines • Rhétorique • Pragmatique • Thématique • Médias • MatièresAV • Tournage • Physique • A tout « domaine » est associé une ontologie (de domaine) • Contrainte Les graphes dans un type d’emboîtement sont construits en utilisant uniquement le vocabulaire de l’ontologie de domaine associée à ce type de graphes COSI'07, Oran, juin 2007

  35. Une seule ontologie (modulaire) • Deux domaines peuvent partager une partie de leur vocabulaire • Ex. des JT : le thème d’une séquence est une personne (thématique), et cette personne est à l’écran (Médias) • Tous les graphes d’une base d’annotation sont construits relativement à une unique ontologie mais chaque emboîtement est relatif à une sous-ontologie de cette ontologie COSI'07, Oran, juin 2007

  36. Ontologie modulaire Universel EtreVivant Document X Vidéo Image Personne X Journaliste Medias Homme Femme X Personnes COSI'07, Oran, juin 2007

  37. Annotation : idD01 Physique belongsTo Icon : http...ic37.jpg createdBy Anonym : * Oil : * medium School : Y Entity : Chania location support Wood : * timeLoc Century : XVIe Description holding Baby :TheChild Entity : Virgin COSI'07, Oran, juin 2007

  38. Graphe final (base d’annotations) auteur Person : PatrickC Annotation : idD01 Physique Icon : http...ic37.jpg createdBy Anonym : * belongsTo auteur medium Oil : * School : Y location Entity : Chania support Wood : * timeLoc Century : XVIe Description détail Entity : Virgin holding Baby :TheChild Annotation : idD02 Description Eye :* isPartOf Entity : Virgin COSI'07, Oran, juin 2007

  39. Méthodologie pour construire des annotations • Une ontologie (vocabulaire, contraintes, règles) partagée • Des (graphes) patrons d’annotation pour un type • Des (graphes) prototypiques pour un type de concept ou de relation • Des graphes individuels COSI'07, Oran, juin 2007

  40. Graphe patron COSI'07, Oran, juin 2007

  41. Graphe prototypique COSI'07, Oran, juin 2007

  42. Prototype d’une relation COSI'07, Oran, juin 2007

  43. Réponses approchées, plausibles, partielles • se limiter aux réponses exactes silence • réponses inexactes basées sur le principe d’incertitude de van Rijsbergen “ Given any two sentences d and q the measure of the uncertainty of d → q relative to a knowledge set, is determined by the minimal transformation of d in d’, to establish the truth of d’ → q ” • rend “vivante” la base d’annotations COSI'07, Oran, juin 2007

  44. Les transformations • Substitutions d’une étiquette compatible à une autre  réponses approchées • Identifications de deux sommets (joints) (+ substitutions)  réponses plausibles ( nbre de joints) • Ajouts de concepts  réponses partielles ( nbre de concepts ajoutés,  nbre de relations ajoutées) COSI'07, Oran, juin 2007

  45. Mise en oeuvre (1) • MOGADOR • thesaurus RAMEAU • 400.000 termes • UF (Used For), SA (See Also), BT (Broader Topic), NT (Narrower Topic), RT (Related Topic) • 12 relations (obj, time, loc, geo, agt, comp, …) COSI'07, Oran, juin 2007

  46. Mise en oeuvre (2) • compatible-term(x,y) : il existe un chemin de y à x tel que sa lg  4, le nbre de RT est  1, le nbre de NT et le nbre de BT sont  2, le nbre de SA et le nbre de UF sont  3 • compatible-relation(x,y) : 2 relations qcq sont compatibles. • acceptable-sequence(s) • quasi-ordre total s ≤ s’ (fonction de ranking) COSI'07, Oran, juin 2007

  47. Mise en oeuvre (3) • C0 séquence vide. • C1 séquences de substitutions de termes utilisant SA. • C2 séquences de subst. de termes utilisant SA and UF. • C3 séquences de subst. de termes utilisant SA, UF et BT. • C4 séquences de subst. de termes utilisant SA, UF, BT et NT. • C5 séquences de subst. de termes utilisant les 5 relations. • C6 séquences de subst. de termes ou de relations . • C0 C1 C2 C3 C4 C5 C6 • s Ci-Ci−1, i = 1, ..., 6, et s’Cjet j <i s’< s • s, s’Ci-Ci−1, s’ ≤ s ssi lg(s’)≤lg(s) COSI'07, Oran, juin 2007

  48. Mise en oeuvre (4) • C7 séquences de substitutions d’étiquettes et de joints. • C6 C7. • C8 séquences de substitutions d’étiquettes et de joints et d’ajouts de relations. • C7 C8. • C9 séquences de substitutions d’étiquettes et de joints et d’ajouts de termes ou de relations. • C8 C9 • s Ci-Ci−1, i = 1, ..., 9, et d sCj et j < i , s’< s • s, s’Ci-Ci−1, s’ ≤ s ssi lg(s’)≤lg(s) COSI'07, Oran, juin 2007

  49. ling. analysis 1 2 politic. discourses 1 1 obj 1 1 agt agt instr 2 2 2 politicians journalists circ 1 computer sc. 1 1 circ 2 circ 2 medias 2 “Expression d’idées politiques dans la presse écrite” political ideas 1 2 newspapers circ COSI'07, Oran, juin 2007

  50. pol. ideas BT pol. sciences NT pol. communication NT pol. language UF pol. discourses ling. analysis politic. ideas 1 1 obj 1 1 1 agt agt instr politicians journalists circ 1 computer sc. 1 1 circ circ medias COSI'07, Oran, juin 2007

More Related