280 likes | 510 Views
Fouille de textes : Extraction Itérative de la Terminologie. Mathieu ROCHE ( Équipe IA-TAO du LRI) 12 novembre 2003 Journées de l’Ecole Doctorale 2003 . Axe « fouille de textes » de l’équipe IA-TAO. Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez
E N D
Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de l’Ecole Doctorale 2003
Axe « fouille de textes » de l’équipe IA-TAO Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez Mathieu Roche Journée de l'Ecole Doctorale 2003
Plan de l’exposé • Approche globale • EXIT : EXtraction Itérative de la Terminologie • La méthode utilisée • L’évaluation des résultats • Conclusion et perspectives Journée de l'Ecole Doctorale 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Nettoyeur Etiqueteur Corpus brut Corpus nettoyé Corpus étiqueté EXIT Extraction d’informations • découverte de règles d’association • extraction d’information par patrons d’extraction - - - - - - - - - - - - - - - Détection des traces de concepts Termes Traces de concepts Approche globale Journée de l'Ecole Doctorale 2003
Étape 1 : Nettoyage • Description du corpus La question biologique :Comprendre l’organisation, la dynamique des protéines qui interagissent directement avec l’ADN, chez la levure Saccharomyces cerevisiae. MEDLINE - NCBI DNA-binding proteins Yeast 6000 textes (10 Mo) 6000 résumés d’articles = CORPUS Journée de l'Ecole Doctorale 2003
1: Biochim Biophys Acta 2001 Dec 30;1522(3):175-86 The modulation of the biological activities of mitochondrial histone Abf2p by yeast PKA and its possible role in the regulation of mitochondrial DNA content during glucose repression. Cho JH, Lee YK, Chae CB. Department of Life Science and Division of Molecular and Life Science, Pohang University of Science and Technology, 790-784, Pohang, South Korea The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is essential for the maintenance of mitochondrial DNA (mtDNA) and appears to play an important role in the recombination and copy number determination of mtDNA. PMID: 11779632 [PubMed - in process] Étape 1 : Nettoyage • Nettoyage lié au format du corpus Journée de l'Ecole Doctorale 2003
Étape 1 : Nettoyage • Uniformisation du corpus Règles : Grâce à une liste de près de 2000 alias de gènes associés à leur nom générique, nous avons remplacé ces alias par leur nom générique. Ex : ISE1, LIS1, SED6 ERG6 alias Journée de l'Ecole Doctorale 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - The/DT modulation/NN of/IN the/DT biological/JJ activities/NNS of/IN mitochondrial/JJ histone/NNP Abf2-protein/NNP ... Étiqueteur de Brill Étape 2 : Étiquetage Étiqueteur grammatical Corpus étiqueté Corpus nettoyé The modulation of the biological activities of mitochondrial histone Abf2-protein ... Journée de l'Ecole Doctorale 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étape 2 : Étiquetage Étiqueteur grammatical Corpus étiqueté Corpus nettoyé ETIQ : Application pour adapter l’étiquetage de Brill à des textes spécialisés (Ahmed AMRANI). Journée de l'Ecole Doctorale 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - DNA binding TATA binding binding motif transcription factor Liste de termes Corpus étiqueté Étape 3 : EXIT (Extraction Itérative de la Terminologie) • Termes extraits : • Nom-Nom • Adjectif-Nom • Nom-Préposition-Nom • Nom-verbe_gérondif • Formule-Nom Journée de l'Ecole Doctorale 2003
Étape 4 : Détection de traces de concepts TRANSCRIPTION • Exemple de traces de concepts en biologie TRANSCRIPTION REGULATION TRANSCRIPTION INITIATION TRANSCRIPTION- ACTIVATOR-GENE TRANSCRIPTION INITIATION MACHINERY TFIID-complex SAGA-complex MSN4 MSN2 Journée de l'Ecole Doctorale 2003
Étape 4 : Détection de traces de concepts • Exemples d’instances de concepts • (bending:Sujet,influence:Verbe) Bendng • transcription-factor Regulfactor • Caractérisation des traces de concepts dans les textes • utilisation du logiciel de visualisation ROWAN • induction en extension sur les concepts Journée de l'Ecole Doctorale 2003
Étape 5 : Extraction d’informations • Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 2patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription : MSN2 encodes SpécificitéFacteur MSN4 encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003
Étape 5 : Extraction d’informations • Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique. $TranscriptionActivitor encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003
Étape 5 : Extraction d’informations • Extraction de règles d’associations [Kodratoff et al., 2003] (bending:Sujet,influence:Verbe)Bendng DNA-duplex DNAconformatn transcription-factor Regulfactor gal4-binding Regulfactor interaction-with-TFIIB Transcriptn Bendng, DNAconformatn, Regulfactor Transcriptn Journée de l'Ecole Doctorale 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Nettoyeur Etiqueteur Corpus brut Corpus nettoyé Corpus étiqueté EXIT Extraction d’informations • découverte de Règles d’association • extraction d’informations par patrons d’extraction - - - - - - - - - - - - - - - Détection des traces de concepts Termes Traces de concepts Approche globale Journée de l'Ecole Doctorale 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - EXIT : la méthode utilisée (1/5) Étiqueteur grammatical Corpus étiqueté Corpus nettoyé Extraction des collocations Sélection des “meilleurs” collocations DNA binding TATA binding binding motif transcription factor insertion mutation hydrogen peroxide DNA binding SH2 domain Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (2/5) • Une méthode statistique • Information Mutuelle[Church et Hanks, 1990] Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (3/5) • Une méthode statistique • Rapport de vraisemblance[Dunning, 1993] • RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (4/5) • Paramètres ajoutés [Roche, 2003] • Privilégier les termes qui apparaissent dans des textes différents. … Journée de l'Ecole Doctorale 2003
EXIT : la méthode utilisée (5/5) • Interface développée en Java par Thomas Heitz Journée de l'Ecole Doctorale 2003
1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Termes extraits EXIT : évaluation des résultats (1/5) • La précision Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats (2/5) • Les courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à l’expert Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats(3/5) • Le rappel Impossible à calculer !! Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats(4/5) • Comparaison de mesures [Roche et al., 2003] Journée de l'Ecole Doctorale 2003
EXIT : évaluation des résultats(5/5) • Courbes d’élévation avec l’information mutuelle et le rapport de vraisemblance Journée de l'Ecole Doctorale 2003
Conclusion et perspectives • Expérimenter les mesures d’induction mises en place • Étudier les textes entiers. Journée de l'Ecole Doctorale 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Nettoyeur Etiqueteur Corpus brut Corpus nettoyé Corpus étiqueté EXIT Extraction d’informations • découverte de règles d’association • extraction d’information par patrons d’extraction - - - - - - - - - - - - - - - Détection des traces de concepts Termes Traces de concepts Approche globale Journée de l'Ecole Doctorale 2003