1 / 73

Classification conceptuelle à partir des textes

Classification conceptuelle à partir des textes. Mathieu Roche Cours DESS II – 23 janvier 2004. Plan « Classification conceptuelle ». Généralités sur la classification conceptuelle LSA Asium , Rowan , pré-traitements nécessaires. Généralités sur la classification conceptuelle.

monty
Download Presentation

Classification conceptuelle à partir des textes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Classification conceptuelle à partir des textes Mathieu Roche Cours DESS II – 23 janvier 2004

  2. Plan « Classification conceptuelle » • Généralités sur la classification conceptuelle • LSA • Asium, Rowan, pré-traitements nécessaires. Cours DESS II - Classification Conceptuelle - 23/01/2004

  3. Généralités sur la classification conceptuelle Cours DESS II - 23 janvier 2004

  4. classification conceptuelle Classification conceptuelle (1/3) Moyens de transports bateaux voitures Ensemble de connaissances Classification conceptuelle Cours DESS II - Classification Conceptuelle - 23/01/2004

  5. Classification conceptuelle (2/3) • Ensemble de connaissances = corpus Exemples : • Corpus de 100 introductions d’articles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko). • Corpus de plus de 6000 résumés d’articles en anglais sur la biologie Moléculaire (9424 Ko). • Corpus en français de plus de 1000 Curiculum Vitae (VediorBis,2470 Ko) • Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko). Cours DESS II - Classification Conceptuelle - 23/01/2004

  6. RelationAction Influence avis-extérieur esprit-de-conquête Expansion caractère-expansif personne-aussi-communicative Classification conceptuelle (3/3) • Exemple de classification spécialisée (construite à partir d’un corpus des Ressources Humaines) • Classification généraliste : WordNet Cours DESS II - Classification Conceptuelle - 23/01/2004

  7. Pourquoi utiliser une ontologie : les patrons d’extraction (1/2) • Généralisation des patrons d’extraction [Freitag, 1998] [Faure et Poibeau, 2000]. Exemple en biologie: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 2patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription :  MSN2 encodes SpécificitéFacteur  MSN4 encodes SpécificitéFacteur Cours DESS II - Classification Conceptuelle - 23/01/2004

  8. Pourquoi utiliser une ontologie : les patrons d’extraction (2/2) Exemple (suite) …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique. $TranscriptionActivitor encodes SpécificitéFacteur Cours DESS II - Classification Conceptuelle - 23/01/2004

  9. Pourquoi utiliser une ontologie : Analyse de données (1/4) • Extraire des connaissances spécifiques au corpus étudié : règles d’association [Azé et Roche, 2003]. BUT :Permettre à l’expert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié. Cours DESS II - Classification Conceptuelle - 23/01/2004

  10. Corpus Classification conceptuelle Règles d’association Pourquoi utiliser une ontologie : Analyse de données (2/4) Remarque : intervention de l’expert tout au long du processus Cours DESS II - Classification Conceptuelle - 23/01/2004

  11. Pourquoi utiliser une ontologie : Analyse de données (3/4) • Extraction des connaissances Corpus des Ressources Humaines : stress  environnement Corpus de la Fouille de données : NatofInput Output Cours DESS II - Classification Conceptuelle - 23/01/2004

  12. Pourquoi utiliser une ontologie : Analyse de données : quelques règles (4/4) Cours DESS II - Classification Conceptuelle - 23/01/2004

  13. Latent Semantic Analysis Thomas K Landauer, Peter W. Foltz, Darrell Laham 1998 Cours DESS II - 23 janvier 2004

  14. Plan de l’exposé de LSA • Introduction • Méthode • Mesure de similarité utilisée • Exemple • Applications Cours DESS II - Classification Conceptuelle - 23/01/2004

  15. Introduction • Motivations : trouver la similarité entre deux mots (ou deux textes). • Cadre de travail : ensemble de documents textuels. Cours DESS II - Classification Conceptuelle - 23/01/2004

  16. Type de méthode • Méthode non supervisée • Méthode qui s’appuie sur le contexte des mots. Cours DESS II - Classification Conceptuelle - 23/01/2004

  17. - phrases - paragraphes - documents Occurrence des mots de chaque phrase X= mots Méthode (1/6) • Matrice relative aux mots du texte Cours DESS II - Classification Conceptuelle - 23/01/2004

  18. X X’ Méthode (2/6) • Normalisation log(1+xi) + entropie Cours DESS II - Classification Conceptuelle - 23/01/2004

  19. Méthode (3/6) • Normalisation (2ème méthode) : Utilisation de la méthode du « TF X IDF » [Salton, 89] pour normaliser [Turney, 01]. Une formule tf*idf combine deux critères : • l'importance du terme pour un document (par tf) • le pouvoir de discrimination de ce terme (par idf). Ainsi, un terme qui a une valeur de tf*idf élevée doit être à la fois important dans ce document, et aussi il doit apparaître peu dans les autres documents. C'est le cas où un terme correspond à une caractéristique importante et unique d'un document. Cours DESS II - Classification Conceptuelle - 23/01/2004

  20. wij = poids du terme Tj dans le document Di • tfij = fréquence du terme Tj dans le document Di • N = nombre de documents dans la collection • n = nombre de documents où le terme Tj apparaît au moins une fois Méthode (4/6) • Normalisation (2ème méthode) : TF X IDF Cours DESS II - Classification Conceptuelle - 23/01/2004

  21. S r x r VT r x n X’ m x n U m x r Méthode (5/6) • Décomposition en valeurs propres : une matrice de rang r peut se décomposer de la manière suivante Cours DESS II - Classification Conceptuelle - 23/01/2004

  22. S r x r VT r x n X’’ m x n U m x r Méthode (6/6) • Approximation de la matrice X’ : construction sur seulement d dimensions d’une matrice X’’ qui est une approximation de la matrice originelle. Cours DESS II - Classification Conceptuelle - 23/01/2004

  23. Mesure de similarité utilisée • Mesure de Spearman (tendance des données à varier ensemble) où -1  R  1 Cours DESS II - Classification Conceptuelle - 23/01/2004

  24. Mesure de similarité utilisée • Mesure de Spearman Si R = -1 alors corrélation négative parfaite Si R = 1 alors corrélation positive parfaite Cours DESS II - Classification Conceptuelle - 23/01/2004

  25. Exemple d’utilisation de LSA (1/5) • c1: Human machine interface for ABC computer applications • c2: A survey of user opinion of computer system response time • c3: The EPS user interface management system • c4: system and human system enginneering testing of EPS • c5: Relation of user perceived response time to error measurement • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graph minors IV: Widths of trees and well-quqsi-ordering • m4: Graph minor: A survey Cours DESS II - Classification Conceptuelle - 23/01/2004

  26. Exemple d’utilisation de LSA (1/5) • c1: Human machine interface for ABC computer applications • c2: A survey of user opinion of computersystemresponsetime • c3: The EPSuserinterface management system • c4: System and humansystem enginneering testing of EPS • c5: Relation of user perceived responsetime to error measurement • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Cours DESS II - Classification Conceptuelle - 23/01/2004

  27. Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 23/01/2004

  28. Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 23/01/2004

  29. Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 23/01/2004

  30. Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 23/01/2004

  31. Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graph minors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) Cours DESS II - Classification Conceptuelle - 23/01/2004

  32. Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) Cours DESS II - Classification Conceptuelle - 23/01/2004

  33. Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) 0.66 Cours DESS II - Classification Conceptuelle - 23/01/2004

  34. Normalisation X X’ X’’ Décomposition en valeurs propres + Approximation Exemple d’utilisation de LSA (4/5) Cours DESS II - Classification Conceptuelle - 23/01/2004

  35. c1 c2 c3 c4 c5 m1 m2 m3 m4 - - - - human 0 . 16 0 . 40 0 . 38 0 . 47 0 . 18 0 . 05 0 . 12 0 . 16 0 . 09 - - - - interface 0 . 14 0 . 37 0 . 33 0 . 40 0 . 16 0 . 03 0 . 07 0 . 10 0 . 04 computer 0 . 15 0 . 51 0 . 36 0 . 41 0 . 24 0 . 02 0 . 06 0 . 09 0 . 12 user 0 . 26 0 . 84 0 . 61 0 . 70 0 . 39 0 . 03 0 . 08 0 . 12 0 . 19 - - - - system 0 . 45 1 . 23 1 . 05 1 . 27 0 . 56 0 . 07 0 . 15 0 . 21 0 . 05 = X ' ' response 0 . 16 0 . 58 0 . 38 0 . 42 0 . 28 0 . 06 0 . 13 0 . 19 0 . 22 time 0 . 16 0 . 58 0 . 38 0 . 42 0 . 28 0 . 06 0 . 13 0 . 19 0 . 22 - - - - EPS 0 . 22 0 . 55 0 . 51 0 . 63 0 . 24 0 . 07 0 . 14 0 . 20 0 . 11 survey 0 . 10 0 . 53 0 . 23 0 . 21 0 . 27 0 . 14 0 . 31 0 . 44 0 . 42 - - - trees 0 . 06 0 . 23 0 . 14 0 . 27 0 . 14 0 . 24 0 . 55 0 . 77 0 . 66 - - - graph 0 . 06 0 . 34 0 . 15 0 . 30 0 . 20 0 . 31 0 . 69 0 . 98 0 . 85 - - minors - 0 . 04 0 . 25 0 . 10 0 . 21 0 . 15 0 . 22 0 . 50 0 . 71 0 . 62 Exemple d’utilisation de LSA (5/5) Cours DESS II - Classification Conceptuelle - 23/01/2004

  36. R = ?? Résultats (exo) : Matrice originale R = ?? Cours DESS II - Classification Conceptuelle - 23/01/2004

  37. R = ?? Résultats (exo) : matrice après normalisation et approximation R = ?? Cours DESS II - Classification Conceptuelle - 23/01/2004

  38. Résultats (exo) : Conclusion • Comparer R(humain, user) et R(human, minors) avec la matrice originale et la matrice normalisée et approximée. • Conclure... Cours DESS II - Classification Conceptuelle - 23/01/2004

  39. Applications • Travail à partir de différents corpus (ensemble de textes homogènes) BUT : déterminer de manière automatique ou semi-automatique une classification conceptuelle du domaine. Cours DESS II - Classification Conceptuelle - 23/01/2004

  40. Perspectives : pré-traitement des données • Corpus étudié • corpus (3784 Ko) en français, propriété de la société PerformanSe, commentant les résultats d'un test de psychologie dans le domaine des Ressources Humaines [Roche & Kodratoff, 2003] Cours DESS II - Classification Conceptuelle - 23/01/2004

  41. Perspectives : pré-traitement des données • Lemmatisation et LSA Cours DESS II - Classification Conceptuelle - 23/01/2004

  42. Perspectives : pré-traitement des données • Suppression des mots vides • similarité de 0.3, une Précision de 17.1% en prenant en compte les mots « vides »  19.2% sans les prendre en compte. • similarité de 0.4, nous obtenons une Précision de 24% avec prise en compte des mots « vides »  32.1% sans leur prise en compte. Cours DESS II - Classification Conceptuelle - 23/01/2004

  43. Discussions • Rehder et al. ont montré que si les contextes (documents) possèdent moins de 60 mots alors la méthode LSA se révèle décevante [Rehder et al., 1998] • Modification de l’algorithme : Wiemer-Hastings[Wiemer-Hastings, 2000] • Travaux de Peter Turney[Turney, 2001] Cours DESS II - Classification Conceptuelle - 23/01/2004

  44. Asium et Rowan Cours DESS II - 23 janvier 2004

  45. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Classification conceptuelle Construction des classes Corpus brut Cours DESS II - Classification Conceptuelle - 23/01/2004

  46. Asium (1/4) • Asium [Faure et Nedellec, 1998] utilise en entrée les textes d'un domaine analysés syntaxiquement. Il va ensuite extraire les triplets: - verbe, - préposition/fonction (si pas de préposition) - nom de tête du complément en forme lémmatisée. • Puis, on rassemble tous les noms apparaissants après un couple verbe/préposition (ou fonction). Ces listes de noms sont appelées classes de base. Elles sont reliées aux couples (verbe/préposition,fonction) qui ont permis de les créer. Cours DESS II - Classification Conceptuelle - 23/01/2004

  47. Asium (2/4) • Asium calcule ensuite une similarité entre toutes ces classes de base deux à deux. Les plus proches vont être assemblées pour former les classes apprises. • Ces classes apprises représentent les concepts du domaine. • Le simple calcul de similarité n'est pas suffisant pour apprendre les concepts d'un domaine, l'aide d'un expert est primordiale. En effet, certaines classes apprises peuvent comporter du bruit (erreurs d'analyse syntaxique). Cours DESS II - Classification Conceptuelle - 23/01/2004

  48. Asium (3/4) • Par exemple, les deux classes de base suivantes: • C1: voyager en (bateau, été, avion, hiver, voiture, train) • C2: se déplacer en (bateau, hiver, 4x4, vélo, avion) ont une bonne similarité. Néanmoins, leur agrégation ne représente pas un mais deux concepts. L'expert interviendra donc pour découper la classe apprise en deux concepts: Moyens de transport et Saisons. Cours DESS II - Classification Conceptuelle - 23/01/2004

  49. Asium (4/4) • De plus, l'expert devra vérifier que les inductions effectuées par Asium sont correctes. Ici les inductions effectuées sont : • voyager en 4x4 • voyager en vélo • se déplacer en été • se déplacer en voiture • se déplacer en train • Ces utilisations n'étant pas présentes dans les textes mais découvertes par Asium (induction). • Le calcul de similarité s'effectue entre toutes les classes de base deux à deux, puis l'expert valide la liste de toutes les classes apprises par Asium. Cours DESS II - Classification Conceptuelle - 23/01/2004

  50. Pré-traitements des données textuelles et utilisation de Rowan Cours DESS II - 23 janvier 2004

More Related