Des textes aux associations entre les concepts qu’ils contiennent

Des textes aux associations entre les concepts qu’ils contiennent Yves Kodratoff, Jérôme Azé, Mathieu Roche, Oriane Matte-Tailliez LRI, Orsay

Processus global Étiquetage + termes Rowan Terminologie Corpus nettoyé Classification conceptuelle Shallow parser Relations syntaxiques nettoyage Corpus Extraction des règles d’association Introductions d’articles de « Fouille de données » Tests psychologique de la société PerformanSe JDS 2003 - Session "Analyse de données textuelles"

Plan • Extraction des associations entre concepts • Intensité d’Implication Normalisée • Moindre Contradiction • Sélection des règles intéressantes • Expériences réalisées • Conclusion et perspectives JDS 2003 - Session "Analyse de données textuelles"

Extraction des connaissances • Recherche de règles d’association de la forme A  B • Utilisation de mesures de qualité permettant d’extraire des règles peu contredites par les données (des pépites de connaissance) • Intensité d’Implication Normalisée [Lerman-Azé, EGC’03] • Moindre Contradiction [Azé-Kodratoff, EGC’02] JDS 2003 - Session "Analyse de données textuelles"

A B Intensité d’Implication Normalisée • Amélioration récente de l’Intensité d’Implication [Gras, 1979] • Recherche de règles A  B étonnament peu contredites par les données JDS 2003 - Session "Analyse de données textuelles"

A B Principe de l’Intensité d’Implication X Y Défaut : converge rapidement vers 1 en fonction de n JDS 2003 - Session "Analyse de données textuelles"

Amélioration apportée : IIN[Lerman-Azé, EGC’03] • Modification de la mesure pour obtenir l’Intensité d’Implication Normalisée (IIN) • IIN(AB) = • Meilleur comportement en fonction de n JDS 2003 - Session "Analyse de données textuelles"

A B Moindre-Contradiction[Azé-Kodratoff, EGC’02] JDS 2003 - Session "Analyse de données textuelles"

B1 A1 B2 A1 Moindre-Contradiction mc(A1B1) > mc(A1B2) JDS 2003 - Session "Analyse de données textuelles"

Sélection des règles intéressantes • Proposer à l’expert les « meilleures » règles obtenues • Pour chaque mesure, les règles telles que m(R) > (m) + (m) sont proposées à l’expert JDS 2003 - Session "Analyse de données textuelles"

Bases de données IIN et MC IIN MC « Fouille de données » 1 6 1 PerfomanSe 22 38 25 Mushrooms 108 363 224 Résultats obtenus • Etude de trois bases de données • Deux bases “ancrées” (Corpus PerformanSe et Corpus Fouille de données) • Une base “académique” (Mushrooms, UCI) JDS 2003 - Session "Analyse de données textuelles"

Conclusion • Les règles trouvées par les deux mesures sont souvent validées par l’expert • Présence de l’expert indispensable à tous les niveaux du processus • Nécessité de minimiser les interventions de l’expert JDS 2003 - Session "Analyse de données textuelles"

Perspectives • Prise en considération des données bruitées • Extraction de règles plus « complexes » • Validation plus large • autres corpus • autres experts JDS 2003 - Session "Analyse de données textuelles"

Des textes aux associations entre les concepts qu’ils contiennent