450 likes | 528 Views
Structures linguistiques pour la recherche d’images sur Internet. Adrian Popescu CEA LIST / Télécom Bretagne. Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont
E N D
Structures linguistiques pour la recherche d’images sur Internet Adrian Popescu CEA LIST / Télécom Bretagne Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont Examinateur Pierre-François Marteau LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles 18/09/2008
Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Adaptation et structuration de connaissances • Applications • Conclusions et perspectives 14/10/2008
Introduction 14/10/2008
Recherche d’images sur Internet • Pratique courante associée aux moteurs de recherche d’information • Fonctionnalités de recherche d’images • Grands acteurs de la recherche d’informations (Google Images, Yahoo! Images, Microsoft Live) • Applications dédiées (Picsearch, Flickr) • Recherches effectuées par un très grand nombre d’utilisateurs • Requêtes visant une grande diversité de sujets • Corpus photographiques très vastes et en rapide croissance 14/10/2008
Systèmes actuels • Indexation des images • En exploitant le texte environnant dans les pages Web (Google Images) • Effectuée par les utilisateurs (Flickr) • Indexation peu coûteuse de grands volumes de données • Mais… trois grandes critiques sur les moteurs actuels • Exclusivement textuelle et de bas niveau • Pas ou peu de traitements d’images • Moyens d’interaction avec les applications souvent inadaptés
Structures linguistiques exploitables • Solution pour palier ces problèmes • Faire évoluer les moteurs pour permettre un traitement non plus au niveau des chaînes de caractères, mais a un niveau symbolique • Exploitation de structures sémantiques • Conditions d’exploitabilité • (Nécessairement) à large échelle • Couvrir le plus possible les requêtes des utilisateurs • Bonne qualité des connaissances incluses • Attente de plus en plus importante de la part des utilisateurs en terme de précision des réponses
Structures linguistiques exploitables • Ressources généralistes constituées manuellement • WordNet (Fellbaum98) – base de données lexicale • Structurée hiérarchiquement • 82115 synsets nominaux • Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun • Hiérarchie moins adéquate que celle de WordNet • 300000 nœuds • Ressources relatives à des domaines • Geonames – base de données géographiques • Structure hiérarchique et spatiale • Six millions d’entités géographiques • UMLS – base de connaissances complexe relative au domaine médical
Construction automatique de structures linguistiques • Constitution manuelle de ressources coûteuse • Cognition (cognition.com) – 24 ans de travail pour constituer une carte sémantique de l’anglais • Nombreux travaux visant l’automatisation du processus (Sanderson99), (Grefenstette07) • Mais • La plupart des travaux visent des domaines précis • Difficultés àassurer simultanément une bonne qualité des connaissances extraites et une bonne couverture du domaine ciblé • Construction automatique de structures à large échelle • (Grefenstette07) – fouille de données sur le Web afin de construire une carte sémantique de la langue • (Ponzetto07) – nettoyage de l’arbre catégoriel de Wikipédia • (Rattenbury07) – structuration de connaissances géographique à partir de Flickr
Traitement d’images • Recherche par le contenu visuel (CBIR) • Méthode alternative ou complémentaire à la recherche par mots clef • Description de bas niveau des images • Descripteurs globaux (texture, couleur, forme) • Descripteurs locaux (points d’intérêt) • Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle) • Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats Source http://alipr.com
Approche conceptuelle de la recherche d’images • Etude des usages en recherche d’images • Les structures linguistiques • Architecture de recherche sémantique d’images 14/10/2008
Accès sémantique aux images • Moteurs actuels ne sont pas sensibles au sens des requêtes • L’accès sémantique est conditionné par l’existence de structures linguistiques à large échelle • Illusoire de tenter la construction de ressources exhaustives • Nécessité d’études des usages afin de découvrir les domaines conceptuels intéressants • Ajout d’une fonctionnalité CBIR dans des espaces conceptuellement cohérents • Proposition d’une architecture de recherche intégrant des structures linguistiques et des techniques de traitement d’images
Étude des usages en recherche d’images Quelles images cherchons nous sur Internet ? • Analyse d’un fichier de log contenant plus de 20 millions de requêtes • Deux étapes • Analyse statistique • Analyse conceptuelle • Nombre de requêtes par session • Position des pages regardées dans l’ensemble des résultats
Étude des usages – complexité des requêtes • Classiquement, complexité dépend du nombre de termes composant une requête • Proposition d’une analyse basée sur le nombre de concepts dans une requête • Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement • 64% des requêtes incluent un seul concept • 30% des requêtes incluent deux concepts • Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques
Étude des usages – domaines conceptuels Quels concepts cherchons nous sur Internet? • Analyse en utilisant des ressources externes • Limitée à l’anglais • Portant sur trois millions de requêtes uniques • WordNet pour les noms communs • 358000 de requêtes • Geonames pour les termes géographiques • 392000 de requêtes (79000 communes avec WordNet; 151028 communes avec un dictionnaire français) • Liste de noms de personnalités pour les noms propres (Wikipédia + NNDB – http://nndb.com) • 108062 requêtes
Domaines conceptuels - distribution des requêtes • WordNet – analyse automatique • Entités vivantes – 26,5% • Caractéristiques psychologiques – 13,4% • Artéfacts – 12,6% • Geonames – analyse des requêtes fréquentes au moins 20 apparitions dans le fichier de log • Noms de villes – 56,4% • Noms de pays – 20,1% • Objets naturels – 8,5% • Noms de personnalités – analyse automatique • Acteurs – 54,9% • Chanteurs – 13% • Modèles/mannequins – 11,9%
Étude des usages - conclusion • Importance d’une bonne précision sur la première page de résultats • Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats • Une majorité des requêtes sont mono-conceptuelles • Facilement traités en utilisant des structures linguistiques • Découverte de trois domaines conceptuels intéressants pour la recherche d’images • Noms communs • Toponymes • Noms de personnalités
Structures linguistiques • Espace de requêtes très diversifié • Besoin de structures linguistiques à (très) large échelle • Existence de ressources préconstituées • Utiles mais devant être adaptées pour la recherche d’images • Nécessité de construire automatiquement des nouvelles ressources • Relations quelques fois incorrectes et risques d’incohérence • Sélection de relations utiles en recherche d’images
Relations entre les concepts • Définitoires pour les opérations possibles sur le contenu des structures linguistiques • Relations génériques • Hyperonymie/hyponymie – représentation d’un concept par ses héritiers • Homonymie – séparation des différents sens d’un terme • Synonymie – regroupement des termes représentant la même entité • Relations spécifiques à des domaines • Géographie : positionnement, inclusion spatiale • Personnes : données biographiques
Structures linguistiques en recherche d’images Skyscraper • Cette slide vient trop abruptement par rapport à la précédente ! • Reformulation automatique des requêtes • Représentation conceptuellement structurée des résultat • Adaptation de la présentation des résultats en fonction du concept demandé Robert De Niro
Structures linguistiques en recherche d’images • Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents
Adaptation et structuration de connaissance pour la recherche d’images 14/10/2008
Domaines conceptuels • Constitution de structures sémantiques pour trois domaines • Noms communs • Toponymes • Noms de personnalités • Choix dirigé par • Leur intérêt pour la recherche d’image – grand nombre de requêtes de trois types • La possibilité d’adapter ou de construire des structures linguistiques à large échelle
Adaptation et structuration de connaissance pour la recherche d’images 14/10/2008
Adaptation de WordNet • Synsets de la base lexicale existante • Ajout d’une mesure de proximité conceptuelle • Format de sortie des résultats
Évaluation de WordNet adapté • 20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts • 7 participants au test • Comparaison avec la ressource linguistique de Ask (http://ask.com) • Pertinence des termes proches • Couverture des ressources • Ask – moins de 10 requêtes proches pour 13 requêtes • WordNet – au minimum 10 requêtes proches pour toutes les 20requêtes
Construction d’un thésaurus géographique • Définition d’un thésaurus géographique (Hill99) Élément = (nom, coordonnées, type) • Structure d’un thésaurus géographique • Organisation hiérarchique • Notre Dame de Paris est une cathédrale • Inclusion spatiale • Notre Dame de ParisParisÎle de FranceFrance • Pas considérée dans la définition de Hill • Réutilisation d’une ressource existante et enrichissement automatique
Sources d’information • Geonames (http://geonames.org) – base de données géographiques constituée manuellement • Wikipédia – encyclopédie collaborative en ligne • Nombre important d’articles décrivant des toponymes • Alltheweb – moteur de recherche d’informations • Panoramio – partage d’images géo-référencées • >6 millions d’images + descriptions • Validation du contenu • Flickr • > 50 millions d’images géo-référencées + descriptions • Pas de validation
Extraction Golden Gate Bridge Gazetiki Sources de données Localisation 37,819 -122, 479 Catégorisation Bridge Classement 253300 85000 Construction d’un thésaurus géographique
Extraction de toponymes et localisation • Extraction de toponymes • Wikipédia – titres des articles • Panoramio – dictionnaire de concepts géographiques + règles d’extraction • Localisation • Wikipédia – coordonnées de l’article • Panoramio – statistiques sur les images décrites par un toponyme Longitude : 21,2478 Latitude : 45,757
Catégorisation et classement • Catégorisation • Wikipédia – dictionnaire du domaine + utilisation de la première phrase, des catégories et de l’Infobox • Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb • Classement – deux composantes • Panoramio nombre d’images x nombre d’utilisateurs • AlltheWeb nombre de résultats +
Évaluation de Gazetiki • 15 villes; comparaison avec TagMaps (Rattenbury07) ou Geonames • Extraction de toponymes de Panoramio • 90% de précision sur 424 termes testés • Comparée à 85% dans TagMaps • Localisation avec Panoramio • Majorité des coordonnées <200 m • Grandes différences pour des entités étendues • Catégorisation • Bons résultats • Meilleure catégorisation dans Wikipédia
CelebWiki- structure pour les noms de personnalités • Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles • Infobox, catégories, tableaux, texte de l’article • Extraction de • Données biographiques • Données relatives à leur activité • Ajout d’une mesure de pertinence • Ajout d’une mesure de proximité conceptuelle
Évaluation de CelebWiki • 20 noms d’acteurs, musiciens et footballeurs • 8 participants au test • Comparaison avec la ressource linguistique de Ask • Pertinence des termes proches • Couverture (370 de requêtes)
Applications 14/10/2008
Olive – recherche d’images de noms communs • Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04) • Caractéristiques • Représentation conceptuellement structurée des requêtes • Utilisation sous-types feuilles de WordNet • Proposition de requêtes proches • Plus génériques • Plus spécifiques • Du même niveau • CBIR parmi les images du même terme feuille de la hiérarchie • Olive - démo vidéo (lien à mettre)
Évaluation d’Olive • Précision de la recherche • Comparaison avec Google Images, sur un panel de 20 concepts, avec 8 participants • Meilleurs résultats pour 15 concepts testés • Précision du CBIR • Comparaison avec Cortina (Quack04) • Test utilisateurs – 10 participants • Comparaison avec Google Images • Structuration sémantique des résultats appréciée • Amélioration de l’interactivité perçue comme utile
ThemExplorer – recherche d’images de toponymes • Exploitation de Gazetiki et de PIRIA • Présentation de noms d’entités précis • Pas de divisions administratives • Caractéristiques • Navigation basé sur une carte interactive fournie par Yahoo! • Navigation selon des catégories • CBIR parmi les images du même toponyme • ThemExplorer - démo vidéo (lien à mettre)
Évaluation de ThemExplorer • Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants • Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants • Test utilisateurs – 8 participants • Comparaison avec World Explorer (Ahern07) • Navigation selon des catégories et CBIR bien appréciées • Couverture de Gazetiki sensiblement meilleure que celle de TagMaps • Problème avec les tags apparaissant en double
Safir – recherche de noms de personnalités • Exploitation de CelebWiki et de PIRIA • Caractéristiques • Représentation conceptuellement structurée des noms de célébrités • Utilisation des informations dans CelebWiki • Proposition de requêtes proches • Noms de personnalités associées • Requêtes plus génériques • CBIR parmi les images de la même personne • Safir - démo vidéo (lien à mettre)
Évaluation de Safir • Précision de la recherche • Comparaison avec Google Image sur 20 noms de personnalités, avec 5 participants • La reformulation des requêtes n’améliore pas la précision des résultats • Meilleure précision pour Safir dans le cas des footballeurs
Conclusions et perspectives 14/10/2008
Conclusions • Structuration automatique de connaissances à grande échelle à partir du Web • Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents • Proposition d’une méthode de recherche sémantique d’images sur Internet • Intégration des structures linguistique et du CBIR • Application à trois domaines conceptuels • Noms communs • Toponymes • Noms de personnalités • Résultats très encourageants dans les premiers deux cas
Perspectives • Traitement des requêtes complexes • Résultats positifs dans la campagne d’évaluation ImageCLEF • Focalisation du travail sur le domaine géographique – projet ANR Georama • Amélioration de la structuration des connaissances • Catégorisation multilingue • Ajout de nouvelles relations : inclusion spatiale, synonymie intra- et inter-langues • Annotation automatique d’images géo-référencées • Algorithme basé sur un k-PP en deux étapes • Évaluation préliminaire montrant un taux de succès de 85% si on annote 50% des images
Références • (Ahern07) • (Fellbaum98) • (Grefenstette07) • (Guha91) • (Hill99) • (Joint04) • (Quack04) • (Ponzetto07) • (Rattenbury07) • (Rosch76) • (Sanderson99)