240 likes | 380 Views
EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés. Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI. Plan de l’exposé. É tat de l’art de différents systèmes Présentation du processus global
E N D
EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI JADT'04 - Mars 2004, Belgique
Plan de l’exposé • État de l’art de différents systèmes • Présentation du processus global • Les paramètres d’EXIT • Généralité sur les paramètres • Description de mesures statistiques • Évaluation des mesures • Conclusions et perspectives JADT'04 - Mars 2004, Belgique
État de l’Art de différents systèmes • Trois types de méthodes • Méthodes linguistiques : LEXTER, ANA, FASTR • Méthodes statistiques : Xtract, … • Méthodes mixtes : ACABIT, EXIT, … JADT'04 - Mars 2004, Belgique
Exemples : + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Termes nominaux Termes Nom-Prép-Nom avec l’information mutuelle + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4) … -------------------------------------------------------- -------------------------------------------------------- Corpus brut Termes Nom-Prép-Nom avec le rapport de vraisemblance 1. mise en place (111) 2. traitement de texte (57) 3. assistante de direction (60) 4. hôtesse de caisse (28) … Termes variants Termes variants + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Termes verbaux Collocations verbales -------------------------------------------------------- + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Corpus nettoyé Collocations nominales Processus global en terminologie Corpus étiqueté avec ETIQ [Amrani et al., 04] JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT • Élagage • Privilégier les termes qui apparaissent dans des textes différents • Règles lexicales pour valider ou rejeter des termes semi automatiquement • Choix de mesures JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT Les mesures • Information Mutuelle [Church et Hanks, 90] JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT Les mesures • Rapport de Vraisemblance [Dunning, 93] RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) D’autres mesures : information mutuelle au cube, mesure d’association, coefficient de Dice et mesures du domaine de l’extraction des règles d’associations [Roche et al., 03] JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT Évaluation des mesures : la précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Collocations extraites - Utilisation des courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de collocations proposées à l’expert. JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT Évaluation des mesures : le Rappel Impossible à calculer ! JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT Évaluation des mesures : les corpus • Corpus de Ressources Humaines (société PerformanSe) - 3784 Ko (en français) • Corpus de CV (Groupe VediorBis) – 2470 Ko (en français) • Corpus d’introductions d’articles sur la Fouille de Données – 369 Ko (en anglais) • Corpus de résumés d’articles sur la Biologie Moléculaire – 9424 Ko (en anglais) JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT Évaluation des mesures : l’expertise des termes • Corpus de Fouille de Données, de CV, de Ressources Humaines : termes pertinents qui sont traces de concepts (resp. 642, 412 et 2960 termes sur les corpus de Fouille de Données, de CV et des Ressources Humaines). • Corpus de Biologie Moléculaire : termes pertinents et non valides(7057 termes). JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT Évaluation des mesures : courbe d’élévation JADT'04 - Mars 2004, Belgique
Les paramètres d’EXIT L’interface graphique JADT'04 - Mars 2004, Belgique
Perspectives • Calculer le rappel et la courbe ROC sur un sous-ensemble des corpus JADT'04 - Mars 2004, Belgique
ANNEXE JADT'04 - Mars 2004, Belgique
Quelques mesures (1/4) • Information Mutuelle [Church et Hanks, 90] • Information Mutuelle au Cube [Daille, 94] JADT'04 - Mars 2004, Belgique
Quelques mesures (2/4) • Mesure d’Association [Jacquemin, 97] : • isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences. JADT'04 - Mars 2004, Belgique
Quelques mesures (3/4) • Coefficient de Dice [Smadja, 96] JADT'04 - Mars 2004, Belgique
Exemples : emploi solidarité action communication fichier client service achat … Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines • Elagage à 3 JADT'04 - Mars 2004, Belgique
Expérimentations : corpus des Ressources Humaines (relation Nom-Adjectif) • Courbes d’élévation avec cinq mesures. JADT'04 - Mars 2004, Belgique
Expérimentations : corpus de Biologie Moléculaire • Elagage à 4 JADT'04 - Mars 2004, Belgique
Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Précision avec cinq mesures. JADT'04 - Mars 2004, Belgique
Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Courbes d’élévation avec cinq mesures. JADT'04 - Mars 2004, Belgique
Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Classement selon le nombre d’occurrences + une mesure statistique pour les collocations ayant le même nombre d’occurrences. JADT'04 - Mars 2004, Belgique