1 / 22

Utilisation de mesures pour extraire la terminologie de corpus spécialisés de domaines différents

Utilisation de mesures pour extraire la terminologie de corpus spécialisés de domaines différents. Mathieu Roche LRI. Processus de fouille de textes de spécialités (équipe I&A du LRI). Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez Mathieu Roche. + + + + + +

luke-foley
Download Presentation

Utilisation de mesures pour extraire la terminologie de corpus spécialisés de domaines différents

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Utilisation de mesures pour extraire la terminologie de corpus spécialisés de domaines différents Mathieu Roche LRI Atelier "Fouille de textes", EGC'04

  2. Processus de fouille de textes de spécialités (équipe I&A du LRI) Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez Mathieu Roche Atelier "Fouille de textes", EGC'04

  3. + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Exemples : Termes nominaux Termes Nom-Prép-Nom avec l’information mutuelle + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4) -------------------------------------------------------- -------------------------------------------------------- Corpus brut Termes Nom-Prép-Nom avec l’information mutuelle au cube + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 1. mise en place (111) 2. traitement de texte (57) 3. tableau de bord (23) 4. contrat de qualification (31) Termes variants Termes variants + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Termes verbaux Collocations verbales -------------------------------------------------------- + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Corpus nettoyé Collocations nominales Processus global en terminologie Corpus étiqueté avec ETIQ [Amrani et al., 2004] Atelier "Fouille de textes", EGC'04

  4. Corpus • Corpus de Ressources Humaines (société PerformanSe) - 3784 Ko (en français) • Corpus de CV (Groupe VediorBis) – 2470 Ko (en français) • Corpus d’introductions d’articles sur la Fouille de Données – 369 Ko (en anglais) • Corpus de résumés d’articles sur la Biologie Moléculaire – 9424 Ko (en anglais) Atelier "Fouille de textes", EGC'04

  5. Plan de l’exposé • Présentation de quelques mesures • Expérimentations • Mesure d’évaluation • Protocole expérimental • Résultats • Conclusions et perspectives Atelier "Fouille de textes", EGC'04

  6. Quelques mesures (1/4) • Information Mutuelle [Church et Hanks, 90] • Information Mutuelle au Cube [Daille, 94] Atelier "Fouille de textes", EGC'04

  7. Quelques mesures (2/4) • Mesure d’Association [Jacquemin, 97] : • isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences. Atelier "Fouille de textes", EGC'04

  8. Quelques mesures (3/4) • Coefficient de Dice [Smadja, 96] Atelier "Fouille de textes", EGC'04

  9. Quelques mesures (4/4) • Rapport de Vraisemblance [Dunning, 93] RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) Atelier "Fouille de textes", EGC'04

  10. Plan de l’exposé • Présentation de quelques mesure • Expérimentations • Mesure d’évaluation • Protocole expérimental • Résultats • Conclusions et perspectives Atelier "Fouille de textes", EGC'04

  11. 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Collocations extraites Expérimentations : mesures d’évaluation • La précision (1) Atelier "Fouille de textes", EGC'04

  12. Expérimentations : mesures d’évaluation • La précision (2) Les courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à l’expert. Atelier "Fouille de textes", EGC'04

  13. Expérimentations : mesures d’évaluation • Le rappel Impossible à calculer ! Atelier "Fouille de textes", EGC'04

  14. Expérimentations : protocole expérimental • Corpus de Fouille de Données, de CV, de Ressources Humaines : termes pertinents qui sont traces de concepts (resp. 642, 412 et 2960 termes sur les corpus de Fouille de Données, de CV et des Ressources Humaines). • Corpus de Biologie Moléculaire : termes pertinents et non valides(7057 termes). Atelier "Fouille de textes", EGC'04

  15. Exemples : emploi solidarité action communication fichier client service achat … Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines • Elagage à 3 Atelier "Fouille de textes", EGC'04

  16. Expérimentations : corpus des Ressources Humaines (relation Nom-Adjectif) • Courbes d’élévation avec cinq mesures. Atelier "Fouille de textes", EGC'04

  17. Expérimentations : corpus de Biologie Moléculaire • Elagage à 4 Atelier "Fouille de textes", EGC'04

  18. Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Précision avec cinq mesures. Atelier "Fouille de textes", EGC'04

  19. Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Courbes d’élévation avec cinq mesures. Atelier "Fouille de textes", EGC'04

  20. Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Classement selon le nombre d’occurrences + une mesure statistique pour les collocations ayant le même nombre d’occurrences. Atelier "Fouille de textes", EGC'04

  21. Conclusions et perspectives • Les mesures privilégiant les collocations ayant un nombre d’occurrences importants donnent de meilleurs résultats. • Perspectives : Calculer le rappel et la courbe ROC sur un sous-ensemble des corpus Atelier "Fouille de textes", EGC'04

  22. + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Exemples : Termes nominaux Termes Nom-Prép-Nom avec l’information mutuelle + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4) -------------------------------------------------------- -------------------------------------------------------- Corpus brut Termes Nom-Prép-Nom avec l’information mutuelle au cube 1. mise en place (111) 2. traitement de texte (57) 3. tableau de bord (23) 4. contrat de qualification (31) Termes variants Termes variants + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Termes verbaux Collocations verbales -------------------------------------------------------- + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Corpus nettoyé Collocations nominales Processus global en terminologie Corpus étiqueté avec ETIQ [Amrani et al., 2004] Atelier "Fouille de textes", EGC'04

More Related