470 likes | 561 Views
Structures linguistiques pour la recherche d’images sur Internet. Adrian Popescu CEA LIST / Télécom Bretagne. Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont
E N D
Structures linguistiques pour la recherche d’images sur Internet Adrian Popescu CEA LIST / Télécom Bretagne Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont Examinateur Pierre-François Marteau LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles 14/10/2008
Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Structuration de connaissances • Création de ressources • Applications • Conclusions et perspectives 14/10/2008
Recherche d’images sur Internet • Pratique courante associée aux moteurs de recherche d’information • Fonctionnalités de recherche d’images • Grands acteurs de la recherche d’informations (Google Images, Yahoo! Images, Microsoft Live) • Applications dédiées (Picsearch, Flickr) • Recherches effectuées par un très grand nombre d’utilisateurs • Requêtes visant une grande diversité de sujets • Corpus photographiques très vastes et en rapide croissance 14/10/2008
Systèmes actuels • Indexation des images • En exploitant le texte environnant dans les pages Web (Google Images) • Effectuée par les utilisateurs (Flickr) • Indexation peu coûteuse de grands volumes de données • Mais… trois grandes critiques sur les moteurs actuels • Exclusivement textuelle et de bas niveau • Pas ou peu de traitements d’images • Moyens d’interaction avec les applications souvent inadaptés
Structures linguistiques • Solution pour palier ces problèmes • Faire évoluer les moteurs pour permettre un traitement non plus au niveau des chaînes de caractères, mais à un niveau symbolique • Exploitation de structures sémantiques • Conditions d’exploitabilité • (Nécessairement) à large échelle • Couvrir le plus possible les requêtes des utilisateurs • Bonne qualité des connaissances incluses • Attente de plus en plus importante de la part des utilisateurs en terme de précision des réponses
Structures linguistiques existantes • Ressources généralistes constituées manuellement • WordNet (Fellbaum98) – base de données lexicale • Structurée hiérarchiquement • 82 115 synsets nominaux • Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun • Hiérarchie moins adéquate que celle de WordNet • 300 000 nœuds • Ressources relatives à des domaines • Geonames – base de données géographiques • Structure hiérarchique et spatiale • Six millions d’entités géographiques • UMLS – base de connaissances complexe relative au domaine médical
Construction automatique de structures linguistiques • Constitution manuelle de ressources coûteuse • Cognition (cognition.com) – 24 ans de travail pour constituer une carte sémantique de l’anglais • Nombreux travaux visant l’automatisation du processus (Sanderson99) • Mais • La plupart des travaux visent des domaines précis • Difficultés àassurer simultanément une bonne qualité des connaissances extraites et une bonne couverture du domaine ciblé • Construction automatique de structures à large échelle • (Grefenstette07) – fouille de données sur le Web afin de construire une carte sémantique de la langue • (Ponzetto07) – nettoyage de l’arbre catégoriel de Wikipédia • (Rattenbury07) – structuration de connaissances géographiques à partir de Flickr
Traitement d’images • Recherche par le contenu visuel (CBIR) • Méthode alternative ou complémentaire à la recherche par mots clef • Description de bas niveau des images • Descripteurs globaux (texture, couleur, forme) • Descripteurs locaux (points d’intérêt) • Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle) • Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats Source http://alipr.com
Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Structuration de connaissances • Création de ressources • Applications • Conclusions et perspectives 14/10/2008
Approche de la thèse Structures linguistiques Approche • Quelles images cherchons-nous sur Internet ? • Comment ? Analyse d’un fichier de log Ressources structurées / semi structurées WordNet, Geonames, Wikipedia Recherche par le contenu Web Structures sémantiques à large échelle Architecture générique de moteur de recherche d'images Applications Safir Olive ThemExplorer
Étude des usages en recherche d’images Comment cherchons nous des images sur Internet ? • Analyse statistique et conceptuelle d’un fichier de log contenant plus de 20 millions de requêtes • Nombre de requêtes par session • Position des pages regardées dans l’ensemble des résultats
Étude des usages – complexité des requêtes • Classiquement, complexité dépend du nombre de termes composant une requête • Proposition d’une analyse basée sur le nombre de concepts dans une requête • Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement • 64% des requêtes incluent un seul concept • 30% des requêtes incluent deux concepts • Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques
Étude des usages – domaines conceptuels Quels concepts cherchons nous sur Internet? • Analyse en utilisant des ressources externes • Limitée à l’anglais • Portant sur trois millions de requêtes uniques • WordNet pour les noms communs • 358 000 de requêtes • Geonames pour les termes géographiques • 392 000 de requêtes (79 000 communes avec WordNet; 151 028 communes avec un dictionnaire français) • Liste de noms de personnalités pour les noms propres (Wikipédia + NNDB – http://nndb.com) • 108 062 requêtes
Domaines conceptuels - distribution des requêtes • WordNet – analyse automatique • Entités vivantes – 26,5% • Caractéristiques psychologiques – 13,4% • Artéfacts – 12,6% • Geonames – analyse des requêtes fréquentes au moins 20 apparitions dans le fichier de log • Noms de villes – 56,4% • Noms de pays – 20,1% • Objets naturels – 8,5% • Noms de personnalités – analyse automatique • Acteurs – 54,9% • Chanteurs – 13% • Modèles/mannequins – 11,9%
Étude des usages - conclusion • Importance d’une bonne précision sur la première page de résultats • Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats • Une majorité des requêtes sont mono-conceptuelles • Facilement traités en utilisant des structures linguistiques • Découverte de trois domaines conceptuels intéressants pour la recherche d’images • Noms communs • Toponymes • Noms de personnalités
Caractérisation des structures linguistiques • Espace de requêtes très diversifié • Besoin de structures linguistiques à (très) large échelle • Existence de ressources préconstituées • Utiles mais devant être adaptées pour la recherche d’images • Nécessité de construire automatiquement des nouvelles ressources • Relations quelquefois incorrectes et risques d’incohérence
Relations entre les concepts • Sélection de relations utiles en recherche d’images • Définitoires pour les opérations possibles sur le contenu des structures linguistiques • Relations génériques • Hyperonymie/hyponymie – représentation d’un concept par ses héritiers • Homonymie – séparation des différents sens d’un terme • Synonymie – regroupement des termes représentant la même entité • Relations spécifiques à des domaines • Géographie : positionnement, inclusion spatiale • Personnes : données biographiques
Skyscraper Robert De Niro isA isA filmOf filmOf filmOf isA Empire State Building Taxi Driver … Petronas Towers … Raging Bull Relations conceptuelles en recherche d’images • Reformulation automatique des requêtes • Structuration des résultats • Adaptation de la présentation des résultats
Structures linguistiques en recherche d’images • Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents • La combinaison des descriptions de bas et de haut niveau des images fait l’objet d’un effort de recherche soutenu (Liu07)
Architecture de recherche sémantique d’images Corpus d’images Internet Collecteur d’images Corpus d’images Requête textuelle Interface Moteur de recherche visuel Requête image Sélecteur de concepts Ressource linguistique
Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Structuration de connaissances • Création de ressources • Applications • Conclusions et perspectives 14/10/2008
Domaines conceptuels • Constitution de structures sémantiques pour trois domaines • Noms communs • Toponymes • Noms de personnalités • Choix dirigé par • Leur intérêt pour la recherche d’image – grand nombre de requêtes de ces trois types • La possibilité d’adapter ou de construire des structures linguistiques à large échelle
Adaptation de WordNet • Synsets de la base lexicale existante • Ajout d’une mesure de proximité conceptuelle • Format de sortie des résultats freqWeb : fréq. de cooccurrence de deux termes sur le web distance : nombre de nœuds dans la hiérarchie entre c1 et c2 sens: nombre de sens différents de c1
Évaluation de l’adaptation de WordNet • 20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts • 7 évaluateurs • Comparaison avec la ressource linguistique de Ask (http://ask.com) • Pertinence des termes proches • Couverture des ressources • Ask : moins de 10 requêtes proches pour 13 requêtes • WordNet : au minimum 10 requêtes proches pour toutes les 20requêtes
Olive – recherche d’images de noms communs • Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04) • Caractéristiques • Représentation conceptuellement structurée des requêtes • Utilisation sous-types feuilles de WordNet • Proposition de requêtes proches • Plus génériques • Plus spécifiques • Du même niveau • CBIR parmi les images du même terme feuille de la hiérarchie • Olive - démo vidéo
Évaluation d’Olive • Précision de la recherche • Comparaison avec Google Images, sur un panel de 20 concepts, avec 8 participants • Meilleurs résultats pour 15 concepts testés • Précision du CBIR • Comparaison avec Cortina (Quack04) • Test utilisateurs – 10 participants • Comparaison avec Google Images • Structuration sémantique des résultats appréciée • Amélioration de l’interactivité perçue comme utile
Construction d’un thésaurus géographique • Définition d’un thésaurus géographique (Hill99) • Élément = (nom, coordonnées, type) • Structure d’un thésaurus géographique • Organisation hiérarchique (relation isA) • Notre Dame de Paris est une cathédrale • Inclusion spatiale • Notre Dame de ParisParisÎle de FranceFrance • Non considérée dans la définition de Hill
Sources d’information • Réutilisation d’une ressource existante et enrichissement automatique • Geonames (geonames.org) : base de données géographiques constituée manuellement • Wikipédia : Nombre important d’articles décrivant des toponymes • Alltheweb : moteur de recherche d’informations • Panoramio – partage d’images géo-référencées • >6 millions d’images + descriptions • Validation du contenu
Gazetiki Plus de 7 millions d’entités géographiques Thésaurus couvrant la plupart des régions du monde Construction d’un thésaurus géographique Extraction Golden Gate Bridge Gazetiki Sources de données Extraction / Analyse Localisation 37,819 -122, 479 Catégorisation Bridge Classement 253300 85000
Extraction de toponymes et localisation • Extraction de toponymes • Wikipédia – titres des articles • Panoramio – dictionnaire de concepts géographiques + règles d’extraction • Localisation • Wikipédia – coordonnées de l’article • Panoramio – statistiques sur les images décrites par un toponyme Longitude : 21,2478 Latitude : 45,757
Catégorisation et classement • Catégorisation • Wikipédia – dictionnaire du domaine + utilisation de la première phrase, des catégories et de l’Infobox • Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb • Classement – deux composantes • Panoramio nombre d’images x nombre d’utilisateurs • AlltheWeb nombre de résultats +
Évaluation de Gazetiki • 15 villes: comparaison avec TagMaps (Rattenbury07) ou Geonames • Couverture et précision améliorées par rapport à TagMaps • Localisation avec Panoramio • Majorité des coordonnées à <200 m • Catégorisation
ThemExplorer – recherche d’images de toponymes • Exploitation de Gazetiki et de PIRIA • Présentation de noms d’entités précis • Pas de divisions administratives • Caractéristiques • Navigation basé sur une carte interactive fournie par Yahoo! • Navigation selon des catégories • CBIR parmi les images du même toponyme • ThemExplorer - démo vidéo
Évaluation de ThemExplorer • Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants • Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants • Test utilisateurs – 8 participants • Comparaison avec World Explorer (Ahern07) • Navigation selon des catégories et CBIR bien appréciées • Couverture de Gazetiki sensiblement meilleure que celle de TagMaps • Problème avec les tags apparaissant en double
CelebWiki- structure pour les noms de personnalités • Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles • Infobox, catégories, tableaux, texte de l’article • Extraction • Données biographiques • Données relatives à leur activité • Ajout d’une mesure de pertinence • Ajout d’une mesure de proximité conceptuelle
Évaluation de CelebWiki • 20 noms d’acteurs, musiciens et footballeurs • 8 participants au test • Comparaison avec la ressource linguistique de Ask • Pertinence des termes proches • Couverture (370 de requêtes)
Safir – recherche de noms de personnalités • Exploitation de CelebWiki et de PIRIA • Caractéristiques • Représentation conceptuellement structurée des noms de célébrités • Utilisation des informations dans CelebWiki • Proposition de requêtes proches • Noms de personnalités associées • Requêtes plus génériques • CBIR parmi les images de la même personne • Safir - démo vidéo (lien à mettre)
Évaluation de Safir • Précision de la recherche • Comparaison avec Google Image sur 20 noms de personnalités, avec 5 participants • La reformulation des requêtes n’améliore pas la précision des résultats • Meilleure précision pour Safir dans le cas des footballeurs
Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Structuration de connaissances • Création de ressources • Applications • Conclusions et perspectives 14/10/2008
Conclusions • Structuration automatique de connaissances à grande échelle à partir du Web • Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents • Proposition d’une méthode de recherche sémantique d’images sur Internet • Intégration des structures linguistiques et du CBIR • Application à trois domaines conceptuels • Noms communs • Toponymes • Noms de personnalités • Résultats très encourageants pour les deux premiers cas
Perspectives • Traitement des requêtes complexes • Résultats positifs dans la campagne d’évaluation ImageCLEF
Perspectives • Focalisation du travail sur le domaine géographique • Amélioration de la structuration des connaissances • Catégorisation multilingue • Ajout de nouvelles relations : inclusion spatiale, synonymie • Amélioration des traitements par le contenu • Descriptions locales des images (sacs de mots visuels) • Classification supervisée • Annotation automatique d’images géo-référencées • Algorithme basé sur un k-PP • Une majorité de ces pistes s’inscrivent dans le projet ANR Georama (CEA List – Exalead - ENSTB)
Publications au cours de la thèse • Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos ThemExplorer: Finding and Browsing Geo-referenced Images, CBMI 2008, June 18 - 20, London, UK. • Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Gazetiki: Automatic Creation of a Geographical Gazetteer, JCDL 2008 , June 16 - 20, Pittsburgh, USA. • Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos A Conceptual Approach to Web Image Retrieval , LREC 2008, May 28 - 30, 2008, Marrakech, Morroco. • Adrian Popescu, Ioannis Kanellos Multilingual and content based access to Flickr, ICTTA 2008, April 7 - 11, 2008, Damascus, Syria. • Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos Utilisation de structures sémantiques pour la recherche d'images sur Internet, ECOI Workshop, in conjunction with EGC 2008, January 29, 2008, Nice, France. • 2007 • Adrian Popescu, The RIAO 2007 Conference - A Personal View , ACM SIGIR Forum, December 2007 • Adrian Popescu Large Scale Semantic Structures for Image Retrieval, ACM Multimedia 2007, September 24 - 29, Augsburg, Germany - doctoral symposium. • Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Improving Image Retrieval Using Semantic Resources, to appear as book chapter in the Springer Series in Computational Intelligence • Adrian Popescu, Christophe Millet, Pierre-Alain Moëllic Ontology Driven Content Based Image Retrieval, CIVR 2007 - posters session, July 9 - 11, 2007, Amsterdam, The Netherlands. • Adrian Popescu Image Retrieval Using a Multilingual Ontology, RIAO 2007, May 30 - June 1, 2007, Pittsburgh, USA. • Christian Fluhr, Gregory Grefenstette, Adrian Popescu Toward a common semantics between Media and Languages, IWRIDL, December 12-15, 2006, Kolkata, India • Adrian Popescu, Christophe Millet, Gregory Grefenstette, Pierre-Alain Moëllic, Patrick Hède Imaging Word - Wording Images, SAMT 2006 - poster session, December 6 - 9, 2006, Athens, Greece. • Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Using Semantic Commonsense Resources in Image Retrieval, SMAP 2006, December 4 - 5, 2006, Athens, Greece.
Références • (Ahern07) • (Fellbaum98) • (Grefenstette07) • (Guha91) • (Hill99) • (Joint04) • (Liu07) • (Quack04) • (Ponzetto07) • (Rattenbury07) • (Rosch76) • (Sanderson99)
Applications 14/10/2008