1 / 37

Soutenance de thèse Loïc Maisonnasse Sous la direction de

Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la recherche d’information médicale. Soutenance de thèse Loïc Maisonnasse Sous la direction de Catherine Berrut et Jean-Pierre Chevallet Équipe MRIM, laboratoire LIG

kylee
Download Presentation

Soutenance de thèse Loïc Maisonnasse Sous la direction de

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision :application aux graphes pour la recherche d’information médicale Soutenance de thèse Loïc Maisonnasse Sous la direction de Catherine Berrut et Jean-Pierre Chevallet Équipe MRIM, laboratoire LIG Le 6 mai 2008

  2. Contexte • Recherche d’information orientée précision • Des besoins experts et ciblés • Des besoins multilingues • Les mots-clés ne suffisent plus  Besoin d’expressivité • Modéliser l’expressivité • Comparer les modèles • Choisir le modèle approprié Supports de vocabulaires • "Montre-moi des images d'une pneumonie du lobe médial droit." 

  3. Je suis à la recherche des dangers des plombages au mercure chez l’enfant Je suis à la recherche des dangers des plombages au mercure chez l’enfant document Mots clefs Ensemble de mots Relations Le mercure sans danger Les amalgames dentaires contenant du mercure ne présentent pas de risques pour la santé des enfants. mercure, danger, amalgame, dentaire, enfant, … {danger, risque…} {amalgame dentaire, plombage…} {mercure, vif-argent…} (danger - enfant) (plombage - mercure) (plombage - enfant) (mercure - danger) …       La nocivité du mercure Le mercure se retrouve concentré dans les poissons. Les plombages dentaires peuvent aussi en libérer. nocivité, mercure, poisson, plombage, dentaire, … {nocivité, danger …}, {amalgame dentaire, plombage …} {mercure, vif-argent…} (nocivité - mercure) (plombage - mercure) …     Le danger des piles Elle contient du mercure qui produit des vapeurs toxiques pour l’enfant. Les piles au plomb danger, mercure, vapeur, enfant, plomb, … {danger, risque …} {toxique, poison}, {plomb,Pb…} … (danger - pile) (Mercure - toxique) (toxique - enfant) (pile - plomb) …     Mercury in Fillings Mercury in dental work does not hinder children's development. mercury, filling, hinder, children, ... {filling, dental work, plombage, …} {mercury,mercure...} {children, enfant…} (plombage - mercure) (Mercure - enfant) …    

  4. Rendre compte de l’expressivité • L’expressivité • Plusieurs points de vue • L’espace d’expression de chacun de ces points de vue. • Modéliser l’expressivité par des supports de vocabulaires • Plusieurs vocabulaires • Vocabulaire Mots-Clefs Langages complexes Faible Forte Expressivité

  5. Modèle local Cadre de Modélisation Modèle global Support de vocabulaires Objectifs de la thèse • Modéliser l’expressivité en recherche d’information • Proposer des modèles à expressivité forte • Modèle de recherche d’information Local • Modèle de recherche d’information Global • Appliquer ces modèles à la recherche d’information Modélisation de l’expressivité Modèles à expressivité forte Application des modèles Système de recherche d’information orienté précision

  6. L’expressivité dans les modèles de recherche d’information ? Pertinence Utilisateur Besoin d’information Corpus de documents Modèle de requête Modèle de document modèle Support de vocabulaires Support de vocabulaires Correspondance Requête Indexation Expressivité

  7. Portée des représentations de documents Vocabulaires Document seul Portée des vocabulaires Exhaustif Spécifique Explorer les possibilités du support de vocabulaires • Deux modèles Modèle global Modèle local Expressivité

  8. Corpus de documents Corpus de documents Application des modèles à la recherche d’information orienté précision Système orienté précision Modélisation de l’expressivité Cadre de modélisation Instanciation au texte Application au médical Deux Modèles d’expressivité forte Représentation & Correspondance Modèle local Modèle intermédiaire Modèle Représentation intermédiaire Supports de vocabulaires Modèle global Représentation & Correspondance

  9. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  10. La dimension expressivité en recherche d’information (Gaussier et al., 2000) (Strzalkowski et al., 1994) (Zhai et al., 1997) (Losee, 1994) (Lee et Lee, 2005) (Nallapati et Allan, 2002) (Gao et al., 2004) Modèles intégrant la dépendance Informations sémantiques Informations syntaxiques Familles de langages d’indexation en recherche d’information Syntagmes Structure sémantique Structures syntaxiques Concepts Mots-Clefs Faible Forte Expressivité (Sebastiani, 1994) (Berrut, 1988) (Chevallet, 1992) (Genest, 2000) (Mulhem, 2001) (Ho, 2004) (Matsumura et al., 2000) (Metzler et Haas, 1989) (Smeaton, 1999) (Vintar et al., 2003) (Aronson et al., 1994)

  11. Bilan • Comparer l’expressivité des modèles est difficile • Quels sont les vocabulaires ? • Quel est leur espace d’expression ? • Comment sont-ils utilisés ?  Modéliser l’expressivité • Pour la recherche d’information orientée précision • Plusieurs vocabulaires • Forte expressivité • Graphe de concepts • Difficulté d’extraction Faible Forte Expressivité

  12. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  13. Modélisation de l’expressivité en recherche d’information Cadre de modélisation Deux Modèles d’expressivité forte Modèle local Modèle Supports de vocabulaires Modèle global

  14. Support de vocabulaires Vocabulaire simple C081(poumon) C022(cage thoracique),… Support de vocabulaires Vocabulaire complexe ( (C081(poumon), partie de, C022(cage thoracique))… V1 V2 V3 vocabulaires Vocabulaire pondéré ( (C081(poumon), partie de, C022(cage thoracique)), 0.4, 0.7) … SV=(V1, V2, …,Vn) Nom de concept C003(plèvre), C001(cœur), C022(cage thoracique),… T1 T2 types Support de types Nom de relation localisation, mesure, partie de, touche, … ST=(T1, T2, …,Tn)

  15. Représenter à l’aide d’un support de vocabulaires Définir le support de vocabulaire de la représentation Un ou plusieurs vocabulaires Définir la représentation Sélection sur les vocabulaires Exemple de document indexé à l’aide d’un support de vocabulaire

  16. Modèle de recherche d’information basé sur des supports de vocabulaires ? Pertinence Utilisateur Besoin d’information Corpus de documents Support de types ST modèle Support de vocabulaires de requête SVQ Support de vocabulaires de document SVD Modèle de requête Modèle de document Relation de correspondance RC Correspondance Requête Indexation M= (ST, SVQ, SVD, RC)

  17. Faible Expressivité Forte Deux modèles expressifs • Expressivité forte • Niveau sémantique • Vocabulaires complexes • Même support de types • Nom de concepts • Nom de relations • Vocabulaires de base proches • Concepts • Couples • Relations Portée des représentations de documents Vocabulaires Document seul Portée des vocabulaires Exhaustif Spécifique C081(poumon) (C081(poumon), C022(cage thoracique)) (C081(poumon), partie de, C022(cage thoracique) )

  18. Portée des représentations de documents Modèle local Vocabulaires • Inspiré des graphes conceptuels • Support de vocabulaires • Graphe Conceptuel Pondéré • Concepts • Relations • Relation de correspondance • Projection des graphes conceptuels • Degrés de correspondance Document seul Portée des vocabulaires Exhaustif Spécifique touche |0.82, 0.62 C081(poumon) | 0.4, 0.3 C003(plèvre) |0.6, 0.2 partie de | 0.4, 0.1 partie de|0.32, 0.25 C022(cage thoracique) | 0.8, 0.5

  19. Portée des représentations de documents Modèle global Vocabulaires • Inspiré des modèles de langue (Ponte et Croft, 98) • Support de vocabulaires de document • Modélisation statistique du document : • Concepts • Couples • Relations • Support de vocabulaires de requête • Un graphe : • Concepts : • Relations : • Relation de correspondance • Vraisemblance de la requête • Probabilité de générer le graphe de la requête Document seul Portée des vocabulaires Exhaustif Spécifique

  20. Récapitulatif:Modélisation de l’expressivité Cadre de modélisation Deux modèles d’expressivité forte Modèle local Supports de vocabulaires de requête Supports de vocabulaires de document RC Modèle Support de types Support de types Supports de vocabulaires de requête Supports de vocabulaires de document Supports de vocabulaires de requête Supports de vocabulaires de document RC RC Modèle global

  21. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  22. Système orienté précision Instanciation au texte Application au médical Représentation & Correspondance Modèle local Modèle intermédiaire UMLS représentation intermédiaire détection Corpus de documents Modèle global Représentation & Correspondance

  23. Modèle intermédiaire • Ensemble de graphes • Un par phrase • Support de vocabulaire • Concepts • Relations • Utilise deux pondérations • Fréquence • Score de confiance • Défini à l’aide d’UMLS (Unified Medical Language System) • Concepts : méta-thésaurus • Relations : réseau sémantique C081(poumon) | 2 ,0.3 touche |1,0.62 C003(plèvre) |1,0.2 partie de | 1,0.1 partie de|1,0.25 C022(cage thoracique) | 1,0.5

  24. Méthodes de détection de la représentation intermédiaire UMLS • Détection des concepts : 3 méthodes • MapTreeTagger • Analyse morphosyntaxique TreeTagger • Correspondance de termes • MapMiniPar • Analyse morphosyntaxique MiniPar • Correspondance de termes • MetaMap (Aronson, 2001) • Détection des relations • Détection au niveau de la phrase • Calcul d’un score de confiance a posteriori sur MapMiniPar représentation intermédiaire phrase Détection des concepts Détection des relations

  25. Modèle local Représentation & Correspondance • Représentation • Concaténation des graphes de phrases • Deux pondérations pour les relations et les concepts • Un poids (tf-idf) • Un score de confiance • Correspondance • Intersection de graphe • Pondération de l’intersection • Sans ou sans score de confiance Modèle local Supports de vocabulaires représentation intermédiaire

  26. Modèle global représentation intermédiaire • Représentation • Modélisation de l’ensemble des graphes de phrases • Estimation du modèle • Probabilité des concepts, des couples et des relations • Lissage avec la collection • Correspondance • Probabilité de la requête • Plusieurs modèles • Sans étiquette • Avec étiquettes Modèle global Supports de vocabulaires Représentation & Correspondance

  27. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  28. Plan d’expérimentation • Mise en œuvre • Collection CLEF médicale (2005-07) • 85 requêtes • 50 000 documents • Ressources UMLS • 1 million de concepts pour 5 millions de termes • 54 relations sémantiques • Mesures • Précision moyenne • Précision à 5 documents • Expériences • Modèle intermédiaire • Détection des concepts • Modèle local • Méthode MapMiniPar (avec confiance sur les relations) • Modèle global • Avec étiquettes

  29. Modèle intermédiaire :détection des concepts • Détection des concepts MapTreeTagger • Correspondance • Filtrages • Comparaison des méthodes

  30. Modèle local : MapMiniPar avec confiance(relation) • Précision moyenne Collection CLEF médical 2005 niveau diagnostic (tf) • Précision à 5 documents Collection CLEF médical 2005 niveau diagnostic (tf) Modèle intermédiaire Modèle local Modèle intermédiaire Modèle local

  31. Modèle Global : avec étiquettes • Précision moyenne Collection CLEF médical 2005 et 2006 • Précision à 5 documents Collection CLEF médical 2005 et 2006

  32. Comparaison des deux modèles • Meilleurs résultats des deux méthodes Collection CLEF médical 2006 • Résultats • Précisions moyennes fortement différentes • Précisions à 5 documents proches • Modèles • Modèle global : adapté à des corpus stables • Modèle local : bons résultats sur les premiers documents

  33. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  34. Contributions (1/2) • Niveau modélisation • Proposition d’un cadre générique pour la modélisation de l’expressivité • Supports de vocabulaires • Espace de positionnement • Description de deux modèles dans ce cadre • Modèle local • Modèle global • Niveau traitement • Méthodes d’extraction de graphe • Sur-ensemble, améliore les mots-clefs • Score de confiance • Améliore les résultats notamment en précision • Méthode générique en deux étapes • Non supervisé • Meilleurs résultats à CLEF 2007 sur la tâche médicale

  35. Contributions (2/2) • Niveau développements • Programmation modulaire • Basée sur XIOTA (Chevallet, 2004) • Facilite les expérimentations • Implémentation des modèles • Détection des graphes • Création des représentations finales • Correspondance • Exécution rapide • Niveau expérimentations • Différentes variations de chaque modèle • Application des modèles au niveau syntaxique • Participation à différentes campagnes d’évaluation • CLEF’05, recherche d’information multilingue • DEFT’05, attribution de discours • DEFT’06, segmentation • CLEF’07, recherche d’information médicale

  36. Perspectives • Court terme • Détection des graphes • Améliorer l’extraction des concepts et des relations • Utiliser la complémentarité des méthodes • Calcul de scores de confiance • Modèle • Relations lexicales • Score de confiance (modèle global) • Autres corpus • Long terme • Élargir les applications • Autres domaines • Autres medias • Explorer l’espace de positionnement

  37. MERCI

More Related