1 / 36

Ontology Multilingue et Système Documentaire

Ontology Multilingue et Système Documentaire. Farah HARRATHI (PhD) Rami HARRATHI (PhD) Catherine ROUSSEY (MCF), Sylvie CALABRETTO (HDR),. Plan. SyDoM Système Documentaire Multilingue Passage à l’échelle Travaux de Farrah HARRATHI

Download Presentation

Ontology Multilingue et Système Documentaire

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ontology Multilingueet Système Documentaire Farah HARRATHI (PhD) Rami HARRATHI (PhD) Catherine ROUSSEY (MCF), Sylvie CALABRETTO (HDR),

  2. Plan • SyDoM Système Documentaire Multilingue • Passage à l’échelle • Travaux de Farrah HARRATHI • Documents Structurés: interrogation par le contenu et la structure • Travaux de Rami Harrathi • Perspectives

  3. Problématique Recherche d’Information dans un corpus Multilingue (RIM)  Indexation: Amélioration de la représentation de l’information Contexte Doc ’INSA: les preprints de la SAE Contenu textuel Articles anglais de mécanique Public français: étudiants ou chercheurs Problème: indexation?, interrogation?, visualisation? Format pérenne XML Proposer un système capable de répondre aux besoins d'une bibliothèque spécialisée  Système Documentaire Multilingue Introduction

  4. Notice Bibliographique

  5. RIM : les ressources linguistiques • Nécessaires • Construction difficile • Qualité ressources  qualité résultats • Adéquation ressources / corpus : • connaissance du domaine • terminologie du domaine • Problème de traduction des termes terme = "manifestation linguistique d'un concept dans un texte"

  6. Les objectifs du système SyDoM • Indexation manuelle (qualité / quantité)  automatisation • Multilingue : utilisation d’un langage pivot • Améliorer la précision des index : prise en compte des relations • Gérer et normaliser les connaissances • Différencier le terme du concept  ontologie • Besoin d’un modèle de représentation des connaissances

  7. Les Graphes Sémantiques « Tom réalise une expérimentation sur un moteur » Un arc Un type de concept tr1 tr2 2 1 2 1 tc1.1 tc1.2 tc2.1 Un terme label d’un type de concept 1 agent patient 2 2 1 Personne Expérimentation Moteur

  8. Une ontologie Ensemble des types de concepts Ensemble des vocabulaires Engine T Vocabulaire anglais Experimentation tc1 tc2 tc1.1 tc1.2 tc2.1 Expérimentation Moteur tc1.2.1 Vocabulaire français

  9. Les Graphes Sémantiques • Le niveau conceptuel : • une modélisation du domaine • ne dépend pas d’une seule langue (type  terme) définit le langage pivot • Le niveau terminologique : • vocabulaire = ensemble de termes d’une langue • le terme dans un contexte référence un concept  terme = label d’un type définit les langages de présentation pour l’utilisateur

  10. Les Graphes Sémantiques : Projection étendue • Spécialise ou généralise les types • Ne conserve pas le nombre de nœuds concepts • Conserve le nombre d ’arcs but 2 1 H Relation de spécialisation Développement Diesel Projection étendue G but 2 1 Développement Carburant 2 composant 1 Moteur monocylindre Carburant

  11. SyDoM: 3 modules • Module Gestion de l’ontologie • Module Indexation • Annotation • Construction des index • MAJ de l’ontologie • Module Recherche • Construction d'une requête • Traduction en langage pivot • Recherche de documents • Visualisation

  12. Indexation experimental study of combustion in diesel engine L’ontologie Documentaliste Mise à jour de l’ontologie experimental study of combustion in diesel engine 1 Index Annotations 2

  13. Annoter un document avec SyDoM

  14. Annoter le document avec SyDoM

  15. Construction de l'index

  16. Construction de l'index

  17. Résultat d'une recherche

  18. Visualisation des résultats Si l’utilisateur souhaite connaître l’endroit de la deuxième annotation de « moteur diesel » dans le texte, alors en cliquant sur « 2 » le système surligne l’occurrence dans le texte Si l’utilisateur clique sur un lien hypertexte alors le système affiche la définition du concept ou de la relation sélectionné 

  19. Indexation semi automatique de corpus multilingues basée sur une ontologie Farah HARRATHI

  20. Outline • Context: SyDoM prototype • Manual indexing semi-automatic indexing • Large scale corpora • A new indexing procedure • Language properties • Statistical and linguistic method • Experimentation and Future works

  21. State of the Art : Concept Extraction • Monolingual Corpora • Statistical Methods : ANA, etc. • Linguistic Methods : LEXTER, NOMINO, FASTER, etc. • Hybrid Methods : XTRACT, SYNTEX, EXIT, etc. • Multilingual Corpora : • Endogenous Method • Latent Semantic Indexing Method  parallel corpora • Terms gathering: Contextual Distribution

  22. Our Proposition : Theory • General language properties • Least Effort Principle • Saussure Principle • Word Sequence • Term Unicity • Statistic and linguistic analysis • Mutual Information • Contextual Distribution

  23. General Language Properties • Principle of Least Effort Empty words are frequent and short. • Saussure Principle Local differences help identifying empty from non empty words • Word sequences 2 patterns are possible NEN or NEEN • Unicity Principle In a textual unit, two occurrences of the same term cannot be found.

  24. Corpus pre processing List of words, word frequencies, size and position

  25. S A Lexical data available after corpus pre-processing. Candidate terms terms word categorization validation matching ontology Simple Terms Extraction

  26. Mutual Information MI(x,y)=log2(P(x,y)/(P(x)P(y)) = log2(N*f(x,y)/f(x)f(y)) If 2 words, T1 and T2, appear together in the corpus in a significative way then the sequence of these 2 words (T1T2) is considered as a new term of the domain untitled a compound term.

  27. Compound Term Extraction Mutual Information is used to determine compound terms. Iterative and incremental process. Addition of new terms Detection of new terms Terms lists New terms

  28. Contextual Distribution distribution of T2 :(T1), (T5-T3), (T3-T5), (T3-T1). distribution of T4 :(T3-T1), (T3-T5), (T1), (T5-T3). if 2 terms have similar contextual distributions, then they are 2 occurrences of the same concept.

  29. Concept labelling If 2 terms have the same context they are semantically closed. « the inventory of products in dump » « the inventory of products in warehouse » « the inventory of products in store » terms « dump », « warehouse » and « store » belong to the same concept Ontology concept Stocking Place Build concept (to name) Store Garage Warehouse Dump Drugstore matching ? Warehouse Store Dump

  30. Experimentation • 30 doctor’s prescriptions • Extraction of compound terms • Comparison with TerminologyExtractor Patient âgé de 55 ans, adressé par le Dr M. pour coronarographie en vue d'une revascularisation. Ce patient sportif réalise régulièrement des épreuves d'effort à titre systématique. En janvier 1990, l'épreuve d'effort était négative à 210 watts. Le 27.11.91, elle s'avérait positive et symptomatique dès 120 watts. La scintigraphie myocardique réalisée en décembre montrait une ischémie antérieure. La coronarographie a mis en évidence une sténose de l'IVA distale sub-occlusive et la même lésion sur la circonflexe distale. Ces deux vaisseaux sont revascularisés par collatéralité, la fonction ventriculaire gauche est normale.

  31. Word categorization results

  32. Compound term extraction results

  33. Conclusions et perspectives • Generic method of concept extraction using large scale multilingual corpora Combination of linguistic and statistical approaches. • SyDoM prototype evolution Semi automatic indexing • Tests on several corpora in order to find appropriate thresholds. • Relation extraction method?

  34. A Conceptual Graph Based Framework For Structured DocumentRetrieval Rami HARRATHI

  35. Proposition • Proposer un modèle logique d’interrogation de partie de document. • Toujours basé sur les Graphes Conceptuels. • Repart des travaux de Ammar Kheirbek et Yves Chiramella.

  36. Perspectives Classification de documents techniques à base d’ontologies multilingues • Prise en compte de la structure logique, sémantique du document. • Différents niveau de ressources sémantiques • Ontologie formelle pour la gestion de projet • Ontologie linguistique pour l’indexation de document. Une bourse du ministère à la recherche d’un bon étudiant de Master Recherche voir liris.cnrs.fr/actu/these2008 sujet N°4.

More Related