1 / 31

Interface syntaxe-sémantique pour l ’extraction d ’information

Interface syntaxe-sémantique pour l ’extraction d ’information. Amalia Todirascu Equipe Langue et Dialogue LORIA. Plan. Contexte problématique des systèmes d ’extraction d ’information objectifs Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies

tanith
Download Presentation

Interface syntaxe-sémantique pour l ’extraction d ’information

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Interface syntaxe-sémantique pour l ’extraction d ’information Amalia Todirascu Equipe Langue et Dialogue LORIA

  2. Plan • Contexte • problématique des systèmes d ’extraction d ’information • objectifs • Syntaxe • analyse superficielle vs. analyse classique • grammaire & lexique TAG • Ontologies • formalismes de représentation:logiques de description • Interface syntaxe-sémantique • Perspectives

  3. Systèmes d ’extraction d ’information • But: • identification des informations pertinentes pour un domaine • structurer ces informations • applications: • recherche documentaire • extraction d ’ontologies • filtrage - projet Vulcain

  4. Extraction d ’information (and password (some hasP root)) hacker Identification des noms Heuristiques concepts candidats Analyse syntaxique locale valider Ressources linguistiques “the hacker had the root password” Lexique Patrons morpho- syntaxiques Ontologie Systèmes d ’extraction d ’information Documents

  5. Objectifs du projet Vulcain • But: Filtrage des messages électroniques sur le domaine de sécurité des systèmes • Augmenter la portabilité : • réutilisation des ressources linguistiques (grammaire et lexique TAG) • maintenir dynamiquement l ’ontologie du domaine (inférences en logiques de description) • Augmenter la précision: • ressources linguistiques validés par linguistes (grammaires TAG) • concepts validés par l ’ontologie

  6. Un exemple « Trond Hasle Amundsen wrote How can one run a DOS program when lilo and the BIOS are password protected ? ...Remains the question how are you going to run DOS if the first thing that the computer does after the password protected BIOS is coming up with a lilo prompt for a password ?» • Corpus: • erreurs de syntaxe, d ’orthographe • corpus de grande taille • construction syntaxiques spécifiques (noms de places, personnes, organisations, fonctions)

  7. Plan • Contexte • problématique • systèmes d ’extraction d ’information • Syntaxe • analyse superficielle vs. analyse classique • grammaire & lexique TAG • Ontologies • formalismes de représentation:logiques de description • Interface syntaxe-sémantique • Perspectives

  8. techniques d ’analyse syntaxique robuste pour gérer les erreurs: patrons morpho-syntaxiques automates à états finis statistiques (collocations) difficile à construire une représentation sémantique structure syntaxique primitive analyse syntaxique classique structure syntaxique et structure de dépendances besoin de ressources linguistiques adaptéespour les textes spécialisés mal adaptée pour des textes non-spécialisés: besoin de ressources de grande taille, complètes Syntaxe (I)

  9. Syntaxe (II) • Grammaires TAGs: • localité • arbres dérivés et de dérivation • grammaires TAGs disponibles • combinaison des techniques statistiques et des grammaires locales • liste des mots pertinents • filtrage sur des mots pertinents • choisir les arbres communs aux mots pertinents

  10. N N N N N* N* A A user password root unknown Syntaxe (III) « the root password was used by an unknown user»

  11. Syntaxe (IV) • Modification de l’analyseur Lopez: • modularité • ressources en format standard (TAGML - XML) • optimisations • adapter les ressources pour les besoins • lexique spécifique • grammaire locale

  12. Plan • Contexte • problématique • systèmes d ’extraction d ’information • Syntaxe • analyse superficielle vs. analyse classique • grammaire & lexique TAG • Ontologies • formalismes de représentation:logiques de description • Interface syntaxe-sémantique • Perspectives

  13. Ontologies • Définition: une description simplifiée des connaissances du domaine • portabilité réduite • développement des méthodes d ’extraction d ’ontologies à partir des textes: • identification des termes (instances des concepts) • relation termes-concepts • relations entre termes

  14. Formalismes de représentation d ’ontologies • structurer les connaissances (hiérarchie des concepts) • manipuler des connaissances incomplètes ou incorrectes • mise à jours dynamique des connaissances • mécanismes d ’inférence • mécanismes de vérification • éviter les redondances

  15. Logiques de description (I) • Plusieurs propriétés d ’autres formalismes: • réseaux sémantiques • logique du première ordre, logique modale • systèmes de cadres et orientés-objet • organisation hiérarchique • syntaxe et sémantique bien définies

  16. Logiques de description (II) • organisation hiérarchique: • conceptuel (T-Box) • concepts • rôles • asertionnel (A-Box) • instances • procédures d ’inférences et de vérification décidables • implémentation disponibles: FaCT, Racer, CLASSIC

  17. Constructeurs

  18. Définitions

  19. Exemples de définitions (define-concept OperatingSystem (and top (ALL hasFS FileSystem) (ALL hasCommands Command) (SOME hasType Type))) (define-concept PC (and Computer (ALL hasOS (and OperatingSystem (SOME hasType (OR Windows Linux))))) (define-concept Net1 (AND Network (SOME hasIde « x11»)) ) (implies (and (and Person (SOME hasRootPasswd (and Password (SOME hasApply Net1)))) (not Admin)) (and Hacker (SOME hasAttacked Net1)) )

  20. LD - Inférences • hiérarchie basée sur la subsomption (organisation de la hiérarchie) • mécanismes de vérification • cohérence • appartenance des instances aux concepts • algorithmes décidables pour certains expressivités • définitions des rôles et des concepts (ALC) • hiérarchie des rôles (H) • rôles transitives (f+) • rôles inverses (I) • contraintes numériques (Q)

  21. Applications LD • Applications: • recherche documentaire • sémantique du langage naturel • bases de données avec schéma évolutive • terminologies, ontologies • données semi-structurées ou incomplètes • raisonnement au niveau d ’instance • exploitation des hyponymies/hyperonymies • hypothèse du « monde ouverte »

  22. Données semi-structurés ou incomplètes (define-concept Root (AND Administrator (ALL hasAge Age) (ALL hasAdmin Network) (SOME hasRights Unlimited))) (instance y0 (AND Root (SOME hasAdmin (AND Network (SOME hasType WinNT))) ))

  23. Plan • Contexte • problématique • systèmes d ’extraction d ’information • Syntaxe • analyse superficielle vs. analyse classique • grammaire & lexique TAG • Ontologies • formalismes de représentation:logiques de description • Interface syntaxe-sémantique • Perspectives

  24. Interface syntaxe-sémantique • Besoin de relier les grammaires TAG et l ’ontologie • Ressources nécessaires: • lexique spécifique au domaine (mots-arbres élémentaires) • lexique sémantique (pairs mots-concepts) • module d ’interface entre les arbres dérivés et de dérivation

  25. Lexique spécifique au domaine et grammaire locale TAG Entrée texte Corpus de Référence Extraction du Lexique Analyseur LTAG Grammaire et Lexique TAG Interface Syntaxe-Sémantique Extraction du lexique sémantique représentations conceptuelles L ’architecture

  26. L’ontologie • À partir de la liste des mots pertinents (verbes et noms) • les performances du système dépendent de la granularité de l’ontologie • concepts complexes découverts pendant l ’exploitation doivent être ajoutés à l ’ontologie

  27. Le lexique TAG • Méthode qui utilise • grammaire TAG • corpus de référence de 80000 mots • TreeTagger (catégoriseur lexical) • Taille: • 2500 noms, 750 adjectifs • verbes ajoutés manuellement

  28. Le lexique sémantique • Chaque entrée lexicale contient • des descriptions LD • des contraintes (ajoutées par la méta-grammaire) <sem concept="system" lemma=”system”/> <sem concept="(some hasMod main) ”  lemma=”main”/> <sem concept="connect” lemma=”connect”> <constr arg0="Substitution" address = "1"/> <constr arg1="Substitution" address = "3"/> </sem>

  29. A Subst Adjonction B C Interface syntaxe-sémantique (II) Arbre élémentaire Interface syntaxe sémantique Sem(Tree) = (and Sem(A) (Some hasSubst Sem(B)) Sem(C))  (constraints A) Classifieur LD

  30. Connect_to Substitution Substitution hacker server the the Interface syntaxe-sémantique (exemple) Sem(connected_to) = (and Connect (some hasSubst A)(some hasSubst B)) (implies (some hasSubst A)(some arg0 A)) (implies (some hasSubst B)(some arg1 B)) Sem(hacker) = Hacker Sem(server) = Server Sem(the) = (some hasDefine Defined) Sem (the hacker)= (and Hacker (some hasDefine Defined) Sem(the server)= (and Server (some hasDefine Defined)) (concept-satisfiable? (and Connect (some arg0 (and hacker (some hasDefine Defined))) (some arg1 (and server (some hasDefine Defined)) )))

  31. Perspectives • optimisations possibles de l ’analyseur • développement du lexique sémantique • Intégration du système dans plusieurs projets: MIAMM, XMiner

More Related