390 likes | 683 Views
Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la recherche d’information médicale. Soutenance de thèse Loïc Maisonnasse Sous la direction de Catherine Berrut et Jean-Pierre Chevallet Équipe MRIM, laboratoire LIG
E N D
Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision :application aux graphes pour la recherche d’information médicale Soutenance de thèse Loïc Maisonnasse Sous la direction de Catherine Berrut et Jean-Pierre Chevallet Équipe MRIM, laboratoire LIG Le 6 mai 2008
Contexte • Recherche d’information orientée précision • Des besoins experts et ciblés • Des besoins multilingues • Les mots-clés ne suffisent plus Besoin d’expressivité • Modéliser l’expressivité • Comparer les modèles • Choisir le modèle approprié Supports de vocabulaires • "Montre-moi des images d'une pneumonie du lobe médial droit."
Je suis à la recherche des dangers des plombages au mercure chez l’enfant Je suis à la recherche des dangers des plombages au mercure chez l’enfant document Mots clefs Ensemble de mots Relations Le mercure sans danger Les amalgames dentaires contenant du mercure ne présentent pas de risques pour la santé des enfants. mercure, danger, amalgame, dentaire, enfant, … {danger, risque…} {amalgame dentaire, plombage…} {mercure, vif-argent…} (danger - enfant) (plombage - mercure) (plombage - enfant) (mercure - danger) … La nocivité du mercure Le mercure se retrouve concentré dans les poissons. Les plombages dentaires peuvent aussi en libérer. nocivité, mercure, poisson, plombage, dentaire, … {nocivité, danger …}, {amalgame dentaire, plombage …} {mercure, vif-argent…} (nocivité - mercure) (plombage - mercure) … Le danger des piles Elle contient du mercure qui produit des vapeurs toxiques pour l’enfant. Les piles au plomb danger, mercure, vapeur, enfant, plomb, … {danger, risque …} {toxique, poison}, {plomb,Pb…} … (danger - pile) (Mercure - toxique) (toxique - enfant) (pile - plomb) … Mercury in Fillings Mercury in dental work does not hinder children's development. mercury, filling, hinder, children, ... {filling, dental work, plombage, …} {mercury,mercure...} {children, enfant…} (plombage - mercure) (Mercure - enfant) …
Rendre compte de l’expressivité • L’expressivité • Plusieurs points de vue • L’espace d’expression de chacun de ces points de vue. • Modéliser l’expressivité par des supports de vocabulaires • Plusieurs vocabulaires • Vocabulaire Mots-Clefs Langages complexes Faible Forte Expressivité
Modèle local Cadre de Modélisation Modèle global Support de vocabulaires Objectifs de la thèse • Modéliser l’expressivité en recherche d’information • Proposer des modèles à expressivité forte • Modèle de recherche d’information Local • Modèle de recherche d’information Global • Appliquer ces modèles à la recherche d’information Modélisation de l’expressivité Modèles à expressivité forte Application des modèles Système de recherche d’information orienté précision
L’expressivité dans les modèles de recherche d’information ? Pertinence Utilisateur Besoin d’information Corpus de documents Modèle de requête Modèle de document modèle Support de vocabulaires Support de vocabulaires Correspondance Requête Indexation Expressivité
Portée des représentations de documents Vocabulaires Document seul Portée des vocabulaires Exhaustif Spécifique Explorer les possibilités du support de vocabulaires • Deux modèles Modèle global Modèle local Expressivité
Corpus de documents Corpus de documents Application des modèles à la recherche d’information orienté précision Système orienté précision Modélisation de l’expressivité Cadre de modélisation Instanciation au texte Application au médical Deux Modèles d’expressivité forte Représentation & Correspondance Modèle local Modèle intermédiaire Modèle Représentation intermédiaire Supports de vocabulaires Modèle global Représentation & Correspondance
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
La dimension expressivité en recherche d’information (Gaussier et al., 2000) (Strzalkowski et al., 1994) (Zhai et al., 1997) (Losee, 1994) (Lee et Lee, 2005) (Nallapati et Allan, 2002) (Gao et al., 2004) Modèles intégrant la dépendance Informations sémantiques Informations syntaxiques Familles de langages d’indexation en recherche d’information Syntagmes Structure sémantique Structures syntaxiques Concepts Mots-Clefs Faible Forte Expressivité (Sebastiani, 1994) (Berrut, 1988) (Chevallet, 1992) (Genest, 2000) (Mulhem, 2001) (Ho, 2004) (Matsumura et al., 2000) (Metzler et Haas, 1989) (Smeaton, 1999) (Vintar et al., 2003) (Aronson et al., 1994)
Bilan • Comparer l’expressivité des modèles est difficile • Quels sont les vocabulaires ? • Quel est leur espace d’expression ? • Comment sont-ils utilisés ? Modéliser l’expressivité • Pour la recherche d’information orientée précision • Plusieurs vocabulaires • Forte expressivité • Graphe de concepts • Difficulté d’extraction Faible Forte Expressivité
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
Modélisation de l’expressivité en recherche d’information Cadre de modélisation Deux Modèles d’expressivité forte Modèle local Modèle Supports de vocabulaires Modèle global
Support de vocabulaires Vocabulaire simple C081(poumon) C022(cage thoracique),… Support de vocabulaires Vocabulaire complexe ( (C081(poumon), partie de, C022(cage thoracique))… V1 V2 V3 vocabulaires Vocabulaire pondéré ( (C081(poumon), partie de, C022(cage thoracique)), 0.4, 0.7) … SV=(V1, V2, …,Vn) Nom de concept C003(plèvre), C001(cœur), C022(cage thoracique),… T1 T2 types Support de types Nom de relation localisation, mesure, partie de, touche, … ST=(T1, T2, …,Tn)
Représenter à l’aide d’un support de vocabulaires Définir le support de vocabulaire de la représentation Un ou plusieurs vocabulaires Définir la représentation Sélection sur les vocabulaires Exemple de document indexé à l’aide d’un support de vocabulaire
Modèle de recherche d’information basé sur des supports de vocabulaires ? Pertinence Utilisateur Besoin d’information Corpus de documents Support de types ST modèle Support de vocabulaires de requête SVQ Support de vocabulaires de document SVD Modèle de requête Modèle de document Relation de correspondance RC Correspondance Requête Indexation M= (ST, SVQ, SVD, RC)
Faible Expressivité Forte Deux modèles expressifs • Expressivité forte • Niveau sémantique • Vocabulaires complexes • Même support de types • Nom de concepts • Nom de relations • Vocabulaires de base proches • Concepts • Couples • Relations Portée des représentations de documents Vocabulaires Document seul Portée des vocabulaires Exhaustif Spécifique C081(poumon) (C081(poumon), C022(cage thoracique)) (C081(poumon), partie de, C022(cage thoracique) )
Portée des représentations de documents Modèle local Vocabulaires • Inspiré des graphes conceptuels • Support de vocabulaires • Graphe Conceptuel Pondéré • Concepts • Relations • Relation de correspondance • Projection des graphes conceptuels • Degrés de correspondance Document seul Portée des vocabulaires Exhaustif Spécifique touche |0.82, 0.62 C081(poumon) | 0.4, 0.3 C003(plèvre) |0.6, 0.2 partie de | 0.4, 0.1 partie de|0.32, 0.25 C022(cage thoracique) | 0.8, 0.5
Portée des représentations de documents Modèle global Vocabulaires • Inspiré des modèles de langue (Ponte et Croft, 98) • Support de vocabulaires de document • Modélisation statistique du document : • Concepts • Couples • Relations • Support de vocabulaires de requête • Un graphe : • Concepts : • Relations : • Relation de correspondance • Vraisemblance de la requête • Probabilité de générer le graphe de la requête Document seul Portée des vocabulaires Exhaustif Spécifique
Récapitulatif:Modélisation de l’expressivité Cadre de modélisation Deux modèles d’expressivité forte Modèle local Supports de vocabulaires de requête Supports de vocabulaires de document RC Modèle Support de types Support de types Supports de vocabulaires de requête Supports de vocabulaires de document Supports de vocabulaires de requête Supports de vocabulaires de document RC RC Modèle global
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
Système orienté précision Instanciation au texte Application au médical Représentation & Correspondance Modèle local Modèle intermédiaire UMLS représentation intermédiaire détection Corpus de documents Modèle global Représentation & Correspondance
Modèle intermédiaire • Ensemble de graphes • Un par phrase • Support de vocabulaire • Concepts • Relations • Utilise deux pondérations • Fréquence • Score de confiance • Défini à l’aide d’UMLS (Unified Medical Language System) • Concepts : méta-thésaurus • Relations : réseau sémantique C081(poumon) | 2 ,0.3 touche |1,0.62 C003(plèvre) |1,0.2 partie de | 1,0.1 partie de|1,0.25 C022(cage thoracique) | 1,0.5
Méthodes de détection de la représentation intermédiaire UMLS • Détection des concepts : 3 méthodes • MapTreeTagger • Analyse morphosyntaxique TreeTagger • Correspondance de termes • MapMiniPar • Analyse morphosyntaxique MiniPar • Correspondance de termes • MetaMap (Aronson, 2001) • Détection des relations • Détection au niveau de la phrase • Calcul d’un score de confiance a posteriori sur MapMiniPar représentation intermédiaire phrase Détection des concepts Détection des relations
Modèle local Représentation & Correspondance • Représentation • Concaténation des graphes de phrases • Deux pondérations pour les relations et les concepts • Un poids (tf-idf) • Un score de confiance • Correspondance • Intersection de graphe • Pondération de l’intersection • Sans ou sans score de confiance Modèle local Supports de vocabulaires représentation intermédiaire
Modèle global représentation intermédiaire • Représentation • Modélisation de l’ensemble des graphes de phrases • Estimation du modèle • Probabilité des concepts, des couples et des relations • Lissage avec la collection • Correspondance • Probabilité de la requête • Plusieurs modèles • Sans étiquette • Avec étiquettes Modèle global Supports de vocabulaires Représentation & Correspondance
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
Plan d’expérimentation • Mise en œuvre • Collection CLEF médicale (2005-07) • 85 requêtes • 50 000 documents • Ressources UMLS • 1 million de concepts pour 5 millions de termes • 54 relations sémantiques • Mesures • Précision moyenne • Précision à 5 documents • Expériences • Modèle intermédiaire • Détection des concepts • Modèle local • Méthode MapMiniPar (avec confiance sur les relations) • Modèle global • Avec étiquettes
Modèle intermédiaire :détection des concepts • Détection des concepts MapTreeTagger • Correspondance • Filtrages • Comparaison des méthodes
Modèle local : MapMiniPar avec confiance(relation) • Précision moyenne Collection CLEF médical 2005 niveau diagnostic (tf) • Précision à 5 documents Collection CLEF médical 2005 niveau diagnostic (tf) Modèle intermédiaire Modèle local Modèle intermédiaire Modèle local
Modèle Global : avec étiquettes • Précision moyenne Collection CLEF médical 2005 et 2006 • Précision à 5 documents Collection CLEF médical 2005 et 2006
Comparaison des deux modèles • Meilleurs résultats des deux méthodes Collection CLEF médical 2006 • Résultats • Précisions moyennes fortement différentes • Précisions à 5 documents proches • Modèles • Modèle global : adapté à des corpus stables • Modèle local : bons résultats sur les premiers documents
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle local • Modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle local • Modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
Contributions (1/2) • Niveau modélisation • Proposition d’un cadre générique pour la modélisation de l’expressivité • Supports de vocabulaires • Espace de positionnement • Description de deux modèles dans ce cadre • Modèle local • Modèle global • Niveau traitement • Méthodes d’extraction de graphe • Sur-ensemble, améliore les mots-clefs • Score de confiance • Améliore les résultats notamment en précision • Méthode générique en deux étapes • Non supervisé • Meilleurs résultats à CLEF 2007 sur la tâche médicale
Contributions (2/2) • Niveau développements • Programmation modulaire • Basée sur XIOTA (Chevallet, 2004) • Facilite les expérimentations • Implémentation des modèles • Détection des graphes • Création des représentations finales • Correspondance • Exécution rapide • Niveau expérimentations • Différentes variations de chaque modèle • Application des modèles au niveau syntaxique • Participation à différentes campagnes d’évaluation • CLEF’05, recherche d’information multilingue • DEFT’05, attribution de discours • DEFT’06, segmentation • CLEF’07, recherche d’information médicale
Perspectives • Court terme • Détection des graphes • Améliorer l’extraction des concepts et des relations • Utiliser la complémentarité des méthodes • Calcul de scores de confiance • Modèle • Relations lexicales • Score de confiance (modèle global) • Autres corpus • Long terme • Élargir les applications • Autres domaines • Autres medias • Explorer l’espace de positionnement