1 / 13

Des textes aux associations entre les concepts qu’ils contiennent

Des textes aux associations entre les concepts qu’ils contiennent. Yves Kodratoff, Jérôme Azé, Mathieu Roche, Oriane Matte-Tailliez LRI, Orsay. Processus global. Étiquetage + termes. Rowan. Terminologie. Corpus nettoyé. Classification conceptuelle. Shallow parser.

byron-nash
Download Presentation

Des textes aux associations entre les concepts qu’ils contiennent

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Des textes aux associations entre les concepts qu’ils contiennent Yves Kodratoff, Jérôme Azé, Mathieu Roche, Oriane Matte-Tailliez LRI, Orsay

  2. Processus global Étiquetage + termes Rowan Terminologie Corpus nettoyé Classification conceptuelle Shallow parser Relations syntaxiques nettoyage Corpus Extraction des règles d’association Introductions d’articles de « Fouille de données » Tests psychologique de la société PerformanSe JDS 2003 - Session "Analyse de données textuelles"

  3. Plan • Extraction des associations entre concepts • Intensité d’Implication Normalisée • Moindre Contradiction • Sélection des règles intéressantes • Expériences réalisées • Conclusion et perspectives JDS 2003 - Session "Analyse de données textuelles"

  4. Extraction des connaissances • Recherche de règles d’association de la forme A  B • Utilisation de mesures de qualité permettant d’extraire des règles peu contredites par les données (des pépites de connaissance) • Intensité d’Implication Normalisée [Lerman-Azé, EGC’03] • Moindre Contradiction [Azé-Kodratoff, EGC’02] JDS 2003 - Session "Analyse de données textuelles"

  5. A B Intensité d’Implication Normalisée • Amélioration récente de l’Intensité d’Implication [Gras, 1979] • Recherche de règles A  B étonnament peu contredites par les données JDS 2003 - Session "Analyse de données textuelles"

  6. A B Principe de l’Intensité d’Implication X Y Défaut : converge rapidement vers 1 en fonction de n JDS 2003 - Session "Analyse de données textuelles"

  7. Amélioration apportée : IIN[Lerman-Azé, EGC’03] • Modification de la mesure pour obtenir l’Intensité d’Implication Normalisée (IIN) • IIN(AB) = • Meilleur comportement en fonction de n JDS 2003 - Session "Analyse de données textuelles"

  8. A B Moindre-Contradiction[Azé-Kodratoff, EGC’02] JDS 2003 - Session "Analyse de données textuelles"

  9. B1 A1 B2 A1 Moindre-Contradiction mc(A1B1) > mc(A1B2) JDS 2003 - Session "Analyse de données textuelles"

  10. Sélection des règles intéressantes • Proposer à l’expert les « meilleures » règles obtenues • Pour chaque mesure, les règles telles que m(R) > (m) + (m) sont proposées à l’expert JDS 2003 - Session "Analyse de données textuelles"

  11. Bases de données IIN et MC IIN MC « Fouille de données » 1 6 1 PerfomanSe 22 38 25 Mushrooms 108 363 224 Résultats obtenus • Etude de trois bases de données • Deux bases “ancrées” (Corpus PerformanSe et Corpus Fouille de données) • Une base “académique” (Mushrooms, UCI) JDS 2003 - Session "Analyse de données textuelles"

  12. Conclusion • Les règles trouvées par les deux mesures sont souvent validées par l’expert • Présence de l’expert indispensable à tous les niveaux du processus • Nécessité de minimiser les interventions de l’expert JDS 2003 - Session "Analyse de données textuelles"

  13. Perspectives • Prise en considération des données bruitées • Extraction de règles plus « complexes » • Validation plus large • autres corpus • autres experts JDS 2003 - Session "Analyse de données textuelles"

More Related