390 likes | 528 Views
Ontology Multilingue et Système Documentaire. Farah HARRATHI (PhD) Rami HARRATHI (PhD) Catherine ROUSSEY (MCF), Sylvie CALABRETTO (HDR),. Plan. SyDoM Système Documentaire Multilingue Passage à l’échelle Travaux de Farrah HARRATHI
E N D
Ontology Multilingueet Système Documentaire Farah HARRATHI (PhD) Rami HARRATHI (PhD) Catherine ROUSSEY (MCF), Sylvie CALABRETTO (HDR),
Plan • SyDoM Système Documentaire Multilingue • Passage à l’échelle • Travaux de Farrah HARRATHI • Documents Structurés: interrogation par le contenu et la structure • Travaux de Rami Harrathi • Perspectives
Problématique Recherche d’Information dans un corpus Multilingue (RIM) Indexation: Amélioration de la représentation de l’information Contexte Doc ’INSA: les preprints de la SAE Contenu textuel Articles anglais de mécanique Public français: étudiants ou chercheurs Problème: indexation?, interrogation?, visualisation? Format pérenne XML Proposer un système capable de répondre aux besoins d'une bibliothèque spécialisée Système Documentaire Multilingue Introduction
RIM : les ressources linguistiques • Nécessaires • Construction difficile • Qualité ressources qualité résultats • Adéquation ressources / corpus : • connaissance du domaine • terminologie du domaine • Problème de traduction des termes terme = "manifestation linguistique d'un concept dans un texte"
Les objectifs du système SyDoM • Indexation manuelle (qualité / quantité) automatisation • Multilingue : utilisation d’un langage pivot • Améliorer la précision des index : prise en compte des relations • Gérer et normaliser les connaissances • Différencier le terme du concept ontologie • Besoin d’un modèle de représentation des connaissances
Les Graphes Sémantiques « Tom réalise une expérimentation sur un moteur » Un arc Un type de concept tr1 tr2 2 1 2 1 tc1.1 tc1.2 tc2.1 Un terme label d’un type de concept 1 agent patient 2 2 1 Personne Expérimentation Moteur
Une ontologie Ensemble des types de concepts Ensemble des vocabulaires Engine T Vocabulaire anglais Experimentation tc1 tc2 tc1.1 tc1.2 tc2.1 Expérimentation Moteur tc1.2.1 Vocabulaire français
Les Graphes Sémantiques • Le niveau conceptuel : • une modélisation du domaine • ne dépend pas d’une seule langue (type terme) définit le langage pivot • Le niveau terminologique : • vocabulaire = ensemble de termes d’une langue • le terme dans un contexte référence un concept terme = label d’un type définit les langages de présentation pour l’utilisateur
Les Graphes Sémantiques : Projection étendue • Spécialise ou généralise les types • Ne conserve pas le nombre de nœuds concepts • Conserve le nombre d ’arcs but 2 1 H Relation de spécialisation Développement Diesel Projection étendue G but 2 1 Développement Carburant 2 composant 1 Moteur monocylindre Carburant
SyDoM: 3 modules • Module Gestion de l’ontologie • Module Indexation • Annotation • Construction des index • MAJ de l’ontologie • Module Recherche • Construction d'une requête • Traduction en langage pivot • Recherche de documents • Visualisation
Indexation experimental study of combustion in diesel engine L’ontologie Documentaliste Mise à jour de l’ontologie experimental study of combustion in diesel engine 1 Index Annotations 2
Visualisation des résultats Si l’utilisateur souhaite connaître l’endroit de la deuxième annotation de « moteur diesel » dans le texte, alors en cliquant sur « 2 » le système surligne l’occurrence dans le texte Si l’utilisateur clique sur un lien hypertexte alors le système affiche la définition du concept ou de la relation sélectionné
Indexation semi automatique de corpus multilingues basée sur une ontologie Farah HARRATHI
Outline • Context: SyDoM prototype • Manual indexing semi-automatic indexing • Large scale corpora • A new indexing procedure • Language properties • Statistical and linguistic method • Experimentation and Future works
State of the Art : Concept Extraction • Monolingual Corpora • Statistical Methods : ANA, etc. • Linguistic Methods : LEXTER, NOMINO, FASTER, etc. • Hybrid Methods : XTRACT, SYNTEX, EXIT, etc. • Multilingual Corpora : • Endogenous Method • Latent Semantic Indexing Method parallel corpora • Terms gathering: Contextual Distribution
Our Proposition : Theory • General language properties • Least Effort Principle • Saussure Principle • Word Sequence • Term Unicity • Statistic and linguistic analysis • Mutual Information • Contextual Distribution
General Language Properties • Principle of Least Effort Empty words are frequent and short. • Saussure Principle Local differences help identifying empty from non empty words • Word sequences 2 patterns are possible NEN or NEEN • Unicity Principle In a textual unit, two occurrences of the same term cannot be found.
Corpus pre processing List of words, word frequencies, size and position
S A Lexical data available after corpus pre-processing. Candidate terms terms word categorization validation matching ontology Simple Terms Extraction
Mutual Information MI(x,y)=log2(P(x,y)/(P(x)P(y)) = log2(N*f(x,y)/f(x)f(y)) If 2 words, T1 and T2, appear together in the corpus in a significative way then the sequence of these 2 words (T1T2) is considered as a new term of the domain untitled a compound term.
Compound Term Extraction Mutual Information is used to determine compound terms. Iterative and incremental process. Addition of new terms Detection of new terms Terms lists New terms
Contextual Distribution distribution of T2 :(T1), (T5-T3), (T3-T5), (T3-T1). distribution of T4 :(T3-T1), (T3-T5), (T1), (T5-T3). if 2 terms have similar contextual distributions, then they are 2 occurrences of the same concept.
Concept labelling If 2 terms have the same context they are semantically closed. « the inventory of products in dump » « the inventory of products in warehouse » « the inventory of products in store » terms « dump », « warehouse » and « store » belong to the same concept Ontology concept Stocking Place Build concept (to name) Store Garage Warehouse Dump Drugstore matching ? Warehouse Store Dump
Experimentation • 30 doctor’s prescriptions • Extraction of compound terms • Comparison with TerminologyExtractor Patient âgé de 55 ans, adressé par le Dr M. pour coronarographie en vue d'une revascularisation. Ce patient sportif réalise régulièrement des épreuves d'effort à titre systématique. En janvier 1990, l'épreuve d'effort était négative à 210 watts. Le 27.11.91, elle s'avérait positive et symptomatique dès 120 watts. La scintigraphie myocardique réalisée en décembre montrait une ischémie antérieure. La coronarographie a mis en évidence une sténose de l'IVA distale sub-occlusive et la même lésion sur la circonflexe distale. Ces deux vaisseaux sont revascularisés par collatéralité, la fonction ventriculaire gauche est normale.
Conclusions et perspectives • Generic method of concept extraction using large scale multilingual corpora Combination of linguistic and statistical approaches. • SyDoM prototype evolution Semi automatic indexing • Tests on several corpora in order to find appropriate thresholds. • Relation extraction method?
A Conceptual Graph Based Framework For Structured DocumentRetrieval Rami HARRATHI
Proposition • Proposer un modèle logique d’interrogation de partie de document. • Toujours basé sur les Graphes Conceptuels. • Repart des travaux de Ammar Kheirbek et Yves Chiramella.
Perspectives Classification de documents techniques à base d’ontologies multilingues • Prise en compte de la structure logique, sémantique du document. • Différents niveau de ressources sémantiques • Ontologie formelle pour la gestion de projet • Ontologie linguistique pour l’indexation de document. Une bourse du ministère à la recherche d’un bon étudiant de Master Recherche voir liris.cnrs.fr/actu/these2008 sujet N°4.