700 likes | 850 Views
Classification conceptuelle à partir des textes. Mathieu Roche Cours DESS II - 28 f é vrier 2003. Plan « Classification conceptuelle ». Généralités sur la classification conceptuelle Approche non supervisée : LSA Approches supervisées : Asium , Rowan , pré-traitements nécessaires.
E N D
Classification conceptuelle à partir des textes Mathieu Roche Cours DESS II - 28 février 2003
Plan « Classification conceptuelle » • Généralités sur la classification conceptuelle • Approche non supervisée : LSA • Approches supervisées : Asium, Rowan, pré-traitements nécessaires. Cours DESS II - Classification Conceptuelle - 28/02/2003
Généralités sur la classification conceptuelle Cours DESS II - 28 février 2003
classification conceptuelle Classification conceptuelle (1/3) Moyens de transports bateaux voitures Ensemble de connaissances Classification conceptuelle Cours DESS II - Classification Conceptuelle - 28/02/2003
Classification conceptuelle (2/3) • Ensemble de connaissances = corpus Exemples : • Corpus de 100 introductions d’articles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko). • Corpus de plus de 6000 résumés d’articles en anglais sur la biologie Moléculaire (9424 Ko). • Corpus en français de plus de 1000 Curiculum Vitae (VediorBis,2470 Ko) • Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko). Cours DESS II - Classification Conceptuelle - 28/02/2003
RelationAction Influence avis-extérieur esprit-de-conquête Expansion caractère-expansif personne-aussi-communicative Classification conceptuelle (3/3) • Exemple de classification spécialisée (construite à partir d’un corpus des Ressources Humaines) • Classification généraliste : WordNet Cours DESS II - Classification Conceptuelle - 28/02/2003
Pourquoi utiliser une ontologie : les patrons d’extraction (1/2) • Généralisation des patrons d’extraction [Freitag, 1998] [Faure et Poibeau, 2000]. Exemple en biologie: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 2patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription : MSN2 encodes SpécificitéFacteur MSN4 encodes SpécificitéFacteur Cours DESS II - Classification Conceptuelle - 28/02/2003
Pourquoi utiliser une ontologie : les patrons d’extraction (2/2) Exemple (suite) …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique. $TranscriptionActivitor encodes SpécificitéFacteur Cours DESS II - Classification Conceptuelle - 28/02/2003
Pourquoi utiliser une ontologie : Analyse de données (1/4) • Extraire des connaissances spécifiques au corpus étudié : règles d’association [Azé et Roche, 2003]. BUT :Permettre à l’expert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié. Cours DESS II - Classification Conceptuelle - 28/02/2003
Corpus Classification conceptuelle Règles d’association Pourquoi utiliser une ontologie : Analyse de données (2/4) Remarque : intervention de l’expert tout au long du processus Cours DESS II - Classification Conceptuelle - 28/02/2003
Pourquoi utiliser une ontologie : Analyse de données (3/4) • Extraction des connaissances Corpus des Ressources Humaines : stress environnement Corpus de la Fouille de données : NatofInput Output Cours DESS II - Classification Conceptuelle - 28/02/2003
Pourquoi utiliser une ontologie : Analyse de données : quelques règles (4/4) Cours DESS II - Classification Conceptuelle - 28/02/2003
Une approche non supervisée :Latent Semantic Analysis Thomas K Landauer, Peter W. Foltz, Darrell Laham 1998 Cours DESS II - 28 février 2003
Plan de l’exposé de LSA • Introduction • Méthode • Mesure de similarité utilisée • Exemple • Applications Cours DESS II - Classification Conceptuelle - 28/02/2003
Introduction • Motivations : trouver la similarité entre deux mots (ou deux textes). • Cadre de travail : ensemble de documents textuels. Cours DESS II - Classification Conceptuelle - 28/02/2003
Type de méthode • Méthode non supervisée • Méthode qui s’appuie sur le contexte des mots. Cours DESS II - Classification Conceptuelle - 28/02/2003
- phrases - paragraphes - documents Occurrence des mots de chaque phrase X= mots Méthode (1/4) • Matrice relative aux mots du texte Cours DESS II - Classification Conceptuelle - 28/02/2003
X X’ Méthode (2/4) • Normalisation log(1+xi) + entropie Cours DESS II - Classification Conceptuelle - 28/02/2003
S r x r VT r x n X’ m x n U m x r Méthode (3/4) • Décomposition en valeurs propres : une matrice de rang r peut se décomposer de la manière suivante Cours DESS II - Classification Conceptuelle - 28/02/2003
S r x r VT r x n X’’ m x n U m x r Méthode (4/4) • Approximation de la matrice X’ : construction sur seulement d dimensions d’une matrice X’’ qui est une approximation de la matrice originelle. Cours DESS II - Classification Conceptuelle - 28/02/2003
Mesure de similarité utilisée • Mesure de Spearman (tendance des données à varier ensemble) où -1 R 1 Cours DESS II - Classification Conceptuelle - 28/02/2003
Mesure de similarité utilisée • Mesure de Spearman Si R = -1 alors corrélation négative parfaite Si R = 1 alors corrélation positive parfaite Cours DESS II - Classification Conceptuelle - 28/02/2003
Exemple d’utilisation de LSA (1/5) • c1: Human machine interface for ABC computer applications • c2: A survey of user opinion of computer system response time • c3: The EPS user interface management system • c4: system and human system enginneering testing of EPS • c5: Relation of user perceived response time to error measurement • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graph minors IV: Widths of trees and well-quqsi-ordering • m4: Graph minor: A survey Cours DESS II - Classification Conceptuelle - 28/02/2003
Exemple d’utilisation de LSA (1/5) • c1: Human machine interface for ABC computer applications • c2: A survey of user opinion of computersystemresponsetime • c3: The EPSuserinterface management system • c4: System and humansystem enginneering testing of EPS • c5: Relation of user perceived responsetime to error measurement • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Cours DESS II - Classification Conceptuelle - 28/02/2003
Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 28/02/2003
Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 28/02/2003
Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 28/02/2003
Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 28/02/2003
Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graph minors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) Cours DESS II - Classification Conceptuelle - 28/02/2003
Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) Cours DESS II - Classification Conceptuelle - 28/02/2003
Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) 0.66 Cours DESS II - Classification Conceptuelle - 28/02/2003
Normalisation X X’ X’’ Décomposition en valeurs propres + Approximation Exemple d’utilisation de LSA (4/5) Cours DESS II - Classification Conceptuelle - 28/02/2003
c1 c2 c3 c4 c5 m1 m2 m3 m4 - - - - human 0 . 16 0 . 40 0 . 38 0 . 47 0 . 18 0 . 05 0 . 12 0 . 16 0 . 09 - - - - interface 0 . 14 0 . 37 0 . 33 0 . 40 0 . 16 0 . 03 0 . 07 0 . 10 0 . 04 computer 0 . 15 0 . 51 0 . 36 0 . 41 0 . 24 0 . 02 0 . 06 0 . 09 0 . 12 user 0 . 26 0 . 84 0 . 61 0 . 70 0 . 39 0 . 03 0 . 08 0 . 12 0 . 19 - - - - system 0 . 45 1 . 23 1 . 05 1 . 27 0 . 56 0 . 07 0 . 15 0 . 21 0 . 05 = X ' ' response 0 . 16 0 . 58 0 . 38 0 . 42 0 . 28 0 . 06 0 . 13 0 . 19 0 . 22 time 0 . 16 0 . 58 0 . 38 0 . 42 0 . 28 0 . 06 0 . 13 0 . 19 0 . 22 - - - - EPS 0 . 22 0 . 55 0 . 51 0 . 63 0 . 24 0 . 07 0 . 14 0 . 20 0 . 11 survey 0 . 10 0 . 53 0 . 23 0 . 21 0 . 27 0 . 14 0 . 31 0 . 44 0 . 42 - - - trees 0 . 06 0 . 23 0 . 14 0 . 27 0 . 14 0 . 24 0 . 55 0 . 77 0 . 66 - - - graph 0 . 06 0 . 34 0 . 15 0 . 30 0 . 20 0 . 31 0 . 69 0 . 98 0 . 85 - - minors - 0 . 04 0 . 25 0 . 10 0 . 21 0 . 15 0 . 22 0 . 50 0 . 71 0 . 62 Exemple d’utilisation de LSA (5/5) Cours DESS II - Classification Conceptuelle - 28/02/2003
R = ?? Résultats (exo) : Matrice originale R = ?? Cours DESS II - Classification Conceptuelle - 28/02/2003
R = ?? Résultats (exo) : matrice après normalisation et approximation R = ?? Cours DESS II - Classification Conceptuelle - 28/02/2003
Résultats (exo) : Conclusion • Comparer R(humain, user) et R(human, minors) avec la matrice originale et la matrice normalisée et approximée. • Conclure... Cours DESS II - Classification Conceptuelle - 28/02/2003
Applications (1/2) • Travail à partir de différents corpus (ensemble de textes homogènes) BUT : déterminer de manière automatique ou semi-automatique une classification conceptuelle du domaine. Cours DESS II - Classification Conceptuelle - 28/02/2003
Applications (2/2) • Préparation des données en entrée de LSA : Nettoyage Prise en compte de la terminologie du domaine. Exemple : En biologie, considérer le terme "carboxyl-terminal" plutôt que chacun des mots "carboxyl" et "terminal". Cours DESS II - Classification Conceptuelle - 28/02/2003
Deux approches supervisées :Asium et Rowan Cours DESS II - 28 février 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Classification conceptuelle Construction des classes Corpus brut Cours DESS II - Classification Conceptuelle - 28/02/2003
Asium (1/4) • Asium [Faure et Nedellec, 1998] utilise en entrée les textes d'un domaine analysés syntaxiquement. Il va ensuite extraire les triplets: - verbe, - préposition/fonction (si pas de préposition) - nom de tête du complément en forme lémmatisée. • Puis, on rassemble tous les noms apparaissants après un couple verbe/préposition (ou fonction). Ces listes de noms sont appelées classes de base. Elles sont reliées aux couples (verbe/préposition,fonction) qui ont permis de les créer. Cours DESS II - Classification Conceptuelle - 28/02/2003
Asium (2/4) • Asium calcule ensuite une similarité entre toutes ces classes de base deux à deux. Les plus proches vont être assemblées pour former les classes apprises. • Ces classes apprises représentent les concepts du domaine. • Le simple calcul de similarité n'est pas suffisant pour apprendre les concepts d'un domaine, l'aide d'un expert est primordiale. En effet, certaines classes apprises peuvent comporter du bruit (erreurs d'analyse syntaxique). Cours DESS II - Classification Conceptuelle - 28/02/2003
Asium (3/4) • Par exemple, les deux classes de base suivantes: • C1: voyager en (bateau, été, avion, hiver, voiture, train) • C2: se déplacer en (bateau, hiver, 4x4, vélo, avion) ont une bonne similarité. Néanmoins, leur agrégation ne représente pas un mais deux concepts. L'expert interviendra donc pour découper la classe apprise en deux concepts: Moyens de transport et Saisons. Cours DESS II - Classification Conceptuelle - 28/02/2003
Asium (4/4) • De plus, l'expert devra vérifier que les inductions effectuées par Asium sont correctes. Ici les inductions effectuées sont : • voyager en 4x4 • voyager en vélo • se déplacer en été • se déplacer en voiture • se déplacer en train • Ces utilisations n'étant pas présentes dans les textes mais découvertes par Asium (induction). • Le calcul de similarité s'effectue entre toutes les classes de base deux à deux, puis l'expert valide la liste de toutes les classes apprises par Asium. Cours DESS II - Classification Conceptuelle - 28/02/2003
Pré-traitements des données textuelles et utilisation de Rowan Cours DESS II - 28 février 2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étapes de notre travail(1/3) 1ère étape : Nettoyage Corpus nettoyé Corpus brut Cours DESS II - Classification Conceptuelle - 28/02/2003
Le nettoyage • Types de nettoyage : - Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs) - Uniformiser les références CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+année], [numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références. - Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal carboxyl-termini, C00H-terminal, C02H-terminal, etc. par C-term. Cours DESS II - Classification Conceptuelle - 28/02/2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 2ème étape : Recherche de termes Corpus avec termes Étapes de notre travail(2/3) 1ère étape : Nettoyage Corpus nettoyé Corpus brut Exemple de prise en compte de la terminologie du domaine :Considérer le terme « solution miracle » plutôt que chacun des mots « solution » et « miracle ». Cours DESS II - Classification Conceptuelle - 28/02/2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Classification conceptuelle Étapes de notre travail(3/3) 1ère étape : Nettoyage Corpus nettoyé Corpus brut 2ème étape : Recherche de termes 3ème étape : Construction des classes Corpus avec termes Cours DESS II - Classification Conceptuelle - 28/02/2003
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus avec prise en compte de la terminologie Détection de la terminologie(1/7) 2ème étape activité professionnelle tête froide circuit fermé intérêt général Liste de termes Corpus nettoyé Cours DESS II - Classification Conceptuelle - 28/02/2003