Extraction de la terminologie dans un processus global de fouille de textes

Extraction de la terminologie dans un processus global de fouille de textes Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 février 2005 Laboratoire CLIPS- Grenoble

La fouille de textes • Objectifs, exemples : • Recherche des pages pertinentes sur le Web. • Traitement automatique des courriels (spams, réponses automatisées aux courriels, etc.). • Recherche des informations précises dans des textes techniques (médecine, biologie, etc.). • Conception de systèmes de questions/réponses. • Approches : • méthodes linguistiques • méthodes statistiques • méthodes mixtes

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Acquisition Normalisation Étiqueteur Corpus brut Corpus normalisé Corpus étiqueté Extraction des "termes" - - - - - - - - - - - - - - - • Règles d’association • extraction d’informations par patrons d’extraction Extraction d’informations Détection des traces de concepts Termes Classification conceptuelle Le processus global en fouille de textes [Kodratoff et al., JDS'03 ; Roche et al., IIPWM'04]

Les corpus étudiés • Tests de psychologie - Ressources Humaines (Société PerformanSe) - 3784 Ko (en français). • Curriculum Vitæ (Groupe VediorBis) - 2470 Ko (en français). • Introductions d’articles sur la Fouille de Données (acquisition par un expert) - 369 Ko (en anglais). • Résumés d’articles sur la Biologie Moléculaire (acquisition par une base de données spécialisée) - 9424 Ko (en anglais). => Corpus journalistique de TREC'04 (Text REtrieval Conferences)

Problème spécifique étudié :les termes (1/2) • Importance de la caractérisation des termes • Exemple : traduction automatique • Constitution européenne, article III-10 : The right to vote and to stand as a candidate in elections... Le droit de vote et d'éligibilité aux élections ...

Problème spécifique étudié : les termes (2/2) • Collocation (candidat-terme) : groupe de mots dont le sens global est déductible des unités composant le groupe[Clas 1994]. • Exemple, "maire de Paris" • Terme: collocation ayant des propriétés syntaxiques + trace linguistique de concepts pour une tâche en cours. • Exemples, "intelligence artificielle" et "génie logiciel" sont des termes • Exemple, "chalon sur saône" est-il un terme ?

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 4. Extraction de la terminologie : une approche d'apprentissage supervisé

État de l'art (1/5)

État de l'art (2/5) Exemple de système linguistique : FASTR[Jacquemin 1996] • Entrée : termes de base (congé de formation) • Sortie : termes variants (congé annuel de formation). • 3 types de règles (linguistiques) : • Limite : nécessite de considérer une fenêtre plus grande [Ville-Ometz et al. 2004]. Exemple : thymusglandthymus and adrenal gland contexte :rat thymus and adrenal gland

État de l'art (3/5) Exemple de système statistique : ANA[Enguehard 1993] • Module Familiarisation qui initialise la liste de bootstrap. • Exemple : {chef, contrat, rayon, etc.} • Module Découverte qui construit de manière incrémentale une liste de termes fréquents en utilisant les mots du bootstrap. Exemple : chef de rayon Entrée : {chef, contrat, rayon, etc.} Sortie : {chef, contrat, chef de rayon, etc.}

État de l'art (4/5) Exemple de système mixte : ACABIT [Daille 1994] • Extraction de collocations respectant des patrons d'extraction simples Nom-Nom, Nom-Préposition-Nom, Nom-Adjectif, etc. • Les termes variants sont détectés grâce à des règles morpho-syntaxiques (par exemple, centre de formationcentre régional de formation). • Comptabilisation de tous les couples de mots en collocation notés par exemple (centre, formation). • Classement statistique des couples de mots.

État de l'art (5/5) Itératif Coopératif

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 4. Extraction de la terminologie : une approche d'apprentissage supervisé

Présentation du système EXIT(EXtraction Itérative de la Terminologie) • Système mixte (linguistique et statistique) • Système itératif • Système coopératif • Extension du TF X IDF aux termes

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus normalisé Corpus étiqueté - - - - - - - - - - - - - - - Termes 3.1. Processus itératif (1/3) [Roche, EGC'03 ; Roche et al., IIPWM'04 ; Roche et al., JADT'04] • Processus itératif pour extraire les termes nominaux, adjectivaux et adverbiaux. Extraction ETIQ [Amrani et al. 04] Introduction des termes avec "-" Exemple : 1ère itération : assistant de gestion 2ème itération : assistant-de-gestion de production

3.1. Processus itératif (2/3) • Extraction des collocations typées • Adjectif-Adjectif • Adverbe-Adverbe • Adverbe-Adjectif • Adjectif-Nom • Nom-Nom • ... collocations de modifieurs (adjectif et adverbe) collocations nominales  exploitation des itérations + connaissances de l'expert

3.1. Processus itératif (3/3) • Paramètre CIP(Coefficient Itérations Précédentes) • But : utiliser les connaissances de l’expert CIP privilégie les collocations • avec des mots inclus dans les collocations pertinentes des itérations précédentes. • avec des mots absents des collocations non pertinentes des itérations précédentes. • => pourcentage de collocations pertinentes amélioré • (+2% à +16%).

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 3.1. Processus itératif 3.2. Mesures statistiques 3.2.1. État de l'art des mesures statistiques 3.2.2. Évaluation expérimentale des mesures existantes 3.2.3. Proposition de mesures hybrides 3.3. Extension du TF X IDF aux termes 3.4. L'interface d'EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

3.2. Mesures statistiques[Roche et al., JFT'03 ; Roche et al., INFORSID'04] mise en place 111 mise en place 111 traitement de textes 57 traitement de textes 57 assistante de direction 60 assistante de direction 60 hôtesse de caisse 28 hôtesse de caisse 28 chalon sur saône4 chalon sur saône4 jéjunum de rat3 jéjunum de rat3 beurre de karité3 beurre de karité3 puy en velay3 puy en velay3 Rapport de Vraisemblance Information Mutuelle

3.2.1. État de l'art des mesures statistiques(1/4) Exemples de mesures fondées sur l'Information Mutuelle • Information Mutuelle [Church et Hanks 1990] • Information Mutuelle au Cube[Daille 1994]

Mesure d’Association[Jacquemin 1997] : isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences. 3.2.1. État de l'art des mesures statistiques(2/4)

Rapport de Vraisemblance[Dunning, 1993] 3.2.1. État de l'art des mesures statistiques(3/4) RV (x,y) = a.log(a) + b.log(b) + c.log(c) + d.log(d) - (a+b).log(a+b) - (a+c).log(a+c) - (b+d).log(b+d) - (c+d).log(c+d) + (a+b+c+d).log(a+b+c+d)

3.2.1. État de l'art des mesures statistiques(4/4) TALN Règles d'association

3.2.2. Évaluation expérimentale des mesures existantes(1/6) • Objectif : Choix d'une mesure pour une tâche en cours • Critères de performance : • Précision • Courbe d'élévation ("lift chart") • Rappel • Fscore • Courbes ROC

Exemples : emploi solidarité action communication fichier client service achat … 3.2.2. Évaluation expérimentale des mesures existantes(2/6) Corpus de Fouille de Données (FD), des Ressources Humaines (RH) et des CVs.

3.2.2. Évaluation expérimentale des mesures existantes(3/6) • Les résultats présentés portent sur le corpus FD (relation Nom-Nom). • Sur ce corpus, 1074 termes sont associés à un concept par l'expert du domaine. • Protocole expérimental : • Expérimentations sur la tâche d’extraction des collocations pertinentespour la classification conceptuelle. • 12 mesures de qualité expérimentées.

3.2.2. Évaluation expérimentale des mesures existantes(4/6) Précision (en %) sur le corpus de FD avec les collocations Nom-Nom.

3.2.2. Évaluation expérimentale des mesures existantes(5/6) • Courbes d'élévation avec le corpus FD.

3.2.2. Évaluation expérimentale des mesures existantes(6/6) • Résultats similaires avec les 3 autres corpus • CV • Ressources Humaines • Biologie • Bon comportement global des mesures suivantes : • Rapport de Vraisemblance • Information Mutuelle au Cube • J-mesure

3.2. Proposition de mesures hybrides(1/2)[Roche et al., INFORSID'04] Motivations d'utiliser une nouvelle mesure. • Ajout de λà la mesure d’association : • Problème d'optimisation avec λ. => λ* = 0 => Mise en place de la mesure OccRV - classement selon le nombre d'occurrences - classement des collocations ayant le même nombre d'occurrences avec RV

3.2. Proposition de mesures hybrides(2/2)[Roche et al., INFORSID'04] • Courbes d'élévation avec le corpus FD.

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT 3.1. Processus itératif 3.2. Mesures statistiques 3.3. Extension du TF X IDF aux termes 3.4. L'interface d'EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

3.3. Extension du TFXIDF pour les termes (1/2)[Roche, EGC'03 ; Roche et al., JADT'04] Paramètre privilégiant les collocations présentes dans des textes différents. • Paramètre DiffTextes • Exemple : • nombre de collocations : 3 • nombre de textes : 1 • Paramètre TF/IDF DiffTextes = 2.7 ( 3-(3/10) )

3.3. Extension du TFXIDF pour les termes (2/2) • Expérimentation du paramètre DiffTextes sur le corpus FD.  Amélioration globale de la précision

3.4. L'interface d'EXIT [Roche et al., JADT'04; Heitz et al.,EGC'05]

Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé

Minimiser la somme des rangs des exemples positifs maximiser l'aire sous la courbe ROC rangs = 21 rangs = 25 h2 : +++-+++--- h1: ++++++---- AUC AUC Area Under the Curve Approche supervisée pour apprendre une mesure [Roche et al., ROCAI'04 ; Azé et al., ICCI'04]  Entrée : quelques collocations étiquetées (positives ou négatives).  Sortie : fonction de rang [Cohen et al. 1999] • Évaluation d’une fonction de rang : somme des rangs des exemples positifs.

Protocole expérimental (1/2) • Données utilisées

Protocole expérimental (2/2)  Combinaison de mesures

rang Algorithme ROGER (ROC based GEnetic learneR) (1/2) Approche linéaire h(Coll) = wi x mesi (Coll) avec (Coll, +/-) Approche non linéaire h(Coll) = wi x | mesi (Coll) - ci | avec (Coll, +/-) Hypothèses : Aire sous la courbe ROC h  (rang(Coll), Etiq(Coll)) classer les exemples par rangs croissants ++++-+---++-----+++----------- + : collocation pertinente - : collocation non pertinente

Algorithme ROGER(2/2) • Protocole expérimental • 90% Apprentissage, 10% Test, 10 validations croisées • 21 exécutions indépendantes • Soit h1,...,hT les meilleurs hypothèses retenues à partir de T (T=21) exécutions indépendantes de ROGER.

Algorithme ROGER(2/2) • Validation expérimentale sur les ensembles tests • Etude de généralité • différents domaines • différentes langues • différentes fréquences des collocations

Étude de généralité (1) : apprentissage CVs / application Biologie (fréquents) taux de vrais positifs taux de faux positifs Autres noyaux donnent des résultats plus faibles

Étude de généralité (2) : apprentissage Biologie / validation CVs (fréquents) taux de vrais positifs taux de faux positifs

Étude de généralité (3) : apprentissage coll. fréquentes / application coll. rares (CVs) taux de vrais positifs taux de faux positifs

Conclusions • La méthode supervisée proposée donne de bons résultats. • bonne généralisation selon les langues, les domaines et la fréquence des collocations. • Principales caractéristiques d'EXIT : • Approche itérative • Approche coopérative • Ajout de paramètres • CIP (Coefficient Itérations Précédentes) • critères statistiques • DiffTextes

Perspectives • Apprentissage actif : demander à l'expert de valider un nombre restreint de collocations à chaque exécution de ROGER. • Étude approfondie de la terminologie verbale. • Étude du bruit et du silence. • Étude de la terminologie à partir d'autres langues.

DEFT'05 • Le but du défi DEFT (DEfi Fouille de Textes) consiste à supprimer les phrases non pertinentes dans un corpus de discours politiques en français. • Page Web : http://www.lri.fr/ia/fdt/DEFT05/ • N'hésitez pas à participer...

Annexe

1 taux de vrais positifs 0 1 taux de faux positifs Méthode (1/2) • Utilisation des courbes ROC (Receiver Operating Characteristic): courbe dont le taux de vrais positifs est représenté en ordonnées et le taux de faux positifs est représenté par l'axe des abscisses. • Avantage : pas de sensibilitédans le cas d'un déséquilibre entre les classes. • But : optimiser l'aire sous les courbes ROC (AUC) [Sebag et al. 2003].

Extraction de la terminologie dans un processus global de fouille de textes

Extraction de la terminologie dans un processus global de fouille de textes

Presentation Transcript

Simulation d ’ un processus de Poisson

L’apprentissage de la lecture un processus multidimensionnel

Fouille de données complexes

Paramètres significatifs dans le processus de modélisation de la disponibilité

Un processus de changement organisationnel ?

Un nouvel instrument didactique pour améliorer l’enseignement de la compréhension de textes

Veille, ontologies linguistiques, fouille intelligente de textes

Fouille de textes : Extraction Itérative de la Terminologie

Un pied dans la maison de demain

L’évaluation : un objet de formation, des pratiques de formateurs, un processus de régulation.

Le rôle de l'analyste d'affaires et la place de la documentation dans un processus Agile

Dynamique de la langue et de la terminologie dans le domaine de l’énergie nucléaire

LA DÉTERMINATION DE L'INAPTITUDE DE LA PERSONNE ÂGÉE: UN PROCESSUS À MULTIPLE VOIX

Extraction de terminologie bilingue Méthodes et Applications

Processus de gestion de la propriété intellectuelle

PROCESSUS DE CERTIFICATION DE LA DÉONTOLOGIE

Fouille de données dans les corpus de textes Classification supervisée : SVM

Processus d’élaboration d’une politique de diffusion dans un INS Cas de l’ANSD (Sénégal)

Processus d’élaboration d’une politique de diffusion dans un INS Cas de l’ANSD (Sénégal)

Compréhension de textes

Optimisation de la technique de RBC pour la classification dans un processus de data mining

Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes