1 / 46

LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

Structures linguistiques pour la recherche d’images sur Internet. Adrian Popescu CEA LIST / Télécom Bretagne. Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont

opal
Download Presentation

LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Structures linguistiques pour la recherche d’images sur Internet Adrian Popescu CEA LIST / Télécom Bretagne Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont Examinateur Pierre-François Marteau LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles 14/10/2008

  2. Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Structuration de connaissances • Création de ressources • Applications • Conclusions et perspectives 14/10/2008

  3. Recherche d’images sur Internet • Pratique courante associée aux moteurs de recherche d’information • Fonctionnalités de recherche d’images • Grands acteurs de la recherche d’informations (Google Images, Yahoo! Images, Microsoft Live) • Applications dédiées (Picsearch, Flickr) • Recherches effectuées par un très grand nombre d’utilisateurs • Requêtes visant une grande diversité de sujets • Corpus photographiques très vastes et en rapide croissance 14/10/2008

  4. Systèmes actuels • Indexation des images • En exploitant le texte environnant dans les pages Web (Google Images) • Effectuée par les utilisateurs (Flickr) • Indexation peu coûteuse de grands volumes de données • Mais… trois grandes critiques sur les moteurs actuels • Exclusivement textuelle et de bas niveau • Pas ou peu de traitements d’images • Moyens d’interaction avec les applications souvent inadaptés

  5. Structures linguistiques • Solution pour palier ces problèmes • Faire évoluer les moteurs pour permettre un traitement non plus au niveau des chaînes de caractères, mais à un niveau symbolique • Exploitation de structures sémantiques • Conditions d’exploitabilité • (Nécessairement) à large échelle • Couvrir le plus possible les requêtes des utilisateurs • Bonne qualité des connaissances incluses • Attente de plus en plus importante de la part des utilisateurs en terme de précision des réponses

  6. Structures linguistiques existantes • Ressources généralistes constituées manuellement • WordNet (Fellbaum98) – base de données lexicale • Structurée hiérarchiquement • 82 115 synsets nominaux • Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun • Hiérarchie moins adéquate que celle de WordNet • 300 000 nœuds • Ressources relatives à des domaines • Geonames – base de données géographiques • Structure hiérarchique et spatiale • Six millions d’entités géographiques • UMLS – base de connaissances complexe relative au domaine médical

  7. Construction automatique de structures linguistiques • Constitution manuelle de ressources coûteuse • Cognition (cognition.com) – 24 ans de travail pour constituer une carte sémantique de l’anglais • Nombreux travaux visant l’automatisation du processus (Sanderson99) • Mais • La plupart des travaux visent des domaines précis • Difficultés àassurer simultanément une bonne qualité des connaissances extraites et une bonne couverture du domaine ciblé • Construction automatique de structures à large échelle • (Grefenstette07) – fouille de données sur le Web afin de construire une carte sémantique de la langue • (Ponzetto07) – nettoyage de l’arbre catégoriel de Wikipédia • (Rattenbury07) – structuration de connaissances géographiques à partir de Flickr

  8. Traitement d’images • Recherche par le contenu visuel (CBIR) • Méthode alternative ou complémentaire à la recherche par mots clef • Description de bas niveau des images • Descripteurs globaux (texture, couleur, forme) • Descripteurs locaux (points d’intérêt) • Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle) • Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats Source http://alipr.com

  9. Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Structuration de connaissances • Création de ressources • Applications • Conclusions et perspectives 14/10/2008

  10. Approche de la thèse Structures linguistiques Approche • Quelles images cherchons-nous sur Internet ? • Comment ? Analyse d’un fichier de log Ressources structurées / semi structurées WordNet, Geonames, Wikipedia Recherche par le contenu Web Structures sémantiques à large échelle Architecture générique de moteur de recherche d'images Applications Safir Olive ThemExplorer

  11. Étude des usages en recherche d’images Comment cherchons nous des images sur Internet ? • Analyse statistique et conceptuelle d’un fichier de log contenant plus de 20 millions de requêtes • Nombre de requêtes par session • Position des pages regardées dans l’ensemble des résultats

  12. Étude des usages – complexité des requêtes • Classiquement, complexité dépend du nombre de termes composant une requête • Proposition d’une analyse basée sur le nombre de concepts dans une requête • Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement • 64% des requêtes incluent un seul concept • 30% des requêtes incluent deux concepts • Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques

  13. Étude des usages – domaines conceptuels Quels concepts cherchons nous sur Internet? • Analyse en utilisant des ressources externes • Limitée à l’anglais • Portant sur trois millions de requêtes uniques • WordNet pour les noms communs • 358 000 de requêtes • Geonames pour les termes géographiques • 392 000 de requêtes (79 000 communes avec WordNet; 151 028 communes avec un dictionnaire français) • Liste de noms de personnalités pour les noms propres (Wikipédia + NNDB – http://nndb.com) • 108 062 requêtes

  14. Domaines conceptuels - distribution des requêtes • WordNet – analyse automatique • Entités vivantes – 26,5% • Caractéristiques psychologiques – 13,4% • Artéfacts – 12,6% • Geonames – analyse des requêtes fréquentes au moins 20 apparitions dans le fichier de log • Noms de villes – 56,4% • Noms de pays – 20,1% • Objets naturels – 8,5% • Noms de personnalités – analyse automatique • Acteurs – 54,9% • Chanteurs – 13% • Modèles/mannequins – 11,9%

  15. Étude des usages - conclusion • Importance d’une bonne précision sur la première page de résultats • Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats • Une majorité des requêtes sont mono-conceptuelles • Facilement traités en utilisant des structures linguistiques • Découverte de trois domaines conceptuels intéressants pour la recherche d’images • Noms communs • Toponymes • Noms de personnalités

  16. Caractérisation des structures linguistiques • Espace de requêtes très diversifié • Besoin de structures linguistiques à (très) large échelle • Existence de ressources préconstituées • Utiles mais devant être adaptées pour la recherche d’images • Nécessité de construire automatiquement des nouvelles ressources • Relations quelquefois incorrectes et risques d’incohérence

  17. Relations entre les concepts • Sélection de relations utiles en recherche d’images • Définitoires pour les opérations possibles sur le contenu des structures linguistiques • Relations génériques • Hyperonymie/hyponymie – représentation d’un concept par ses héritiers • Homonymie – séparation des différents sens d’un terme • Synonymie – regroupement des termes représentant la même entité • Relations spécifiques à des domaines • Géographie : positionnement, inclusion spatiale • Personnes : données biographiques

  18. Skyscraper Robert De Niro isA isA filmOf filmOf filmOf isA Empire State Building Taxi Driver … Petronas Towers … Raging Bull Relations conceptuelles en recherche d’images • Reformulation automatique des requêtes • Structuration des résultats • Adaptation de la présentation des résultats

  19. Structures linguistiques en recherche d’images • Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents • La combinaison des descriptions de bas et de haut niveau des images fait l’objet d’un effort de recherche soutenu (Liu07)

  20. Architecture de recherche sémantique d’images Corpus d’images Internet Collecteur d’images Corpus d’images Requête textuelle Interface Moteur de recherche visuel Requête image Sélecteur de concepts Ressource linguistique

  21. Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Structuration de connaissances • Création de ressources • Applications • Conclusions et perspectives 14/10/2008

  22. Domaines conceptuels • Constitution de structures sémantiques pour trois domaines • Noms communs • Toponymes • Noms de personnalités • Choix dirigé par • Leur intérêt pour la recherche d’image – grand nombre de requêtes de ces trois types • La possibilité d’adapter ou de construire des structures linguistiques à large échelle

  23. Adaptation de WordNet • Synsets de la base lexicale existante • Ajout d’une mesure de proximité conceptuelle • Format de sortie des résultats freqWeb : fréq. de cooccurrence de deux termes sur le web distance : nombre de nœuds dans la hiérarchie entre c1 et c2 sens: nombre de sens différents de c1

  24. Évaluation de l’adaptation de WordNet • 20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts • 7 évaluateurs • Comparaison avec la ressource linguistique de Ask (http://ask.com) • Pertinence des termes proches • Couverture des ressources • Ask : moins de 10 requêtes proches pour 13 requêtes • WordNet : au minimum 10 requêtes proches pour toutes les 20requêtes

  25. Olive – recherche d’images de noms communs • Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04) • Caractéristiques • Représentation conceptuellement structurée des requêtes • Utilisation sous-types feuilles de WordNet • Proposition de requêtes proches • Plus génériques • Plus spécifiques • Du même niveau • CBIR parmi les images du même terme feuille de la hiérarchie • Olive - démo vidéo

  26. Évaluation d’Olive • Précision de la recherche • Comparaison avec Google Images, sur un panel de 20 concepts, avec 8 participants • Meilleurs résultats pour 15 concepts testés • Précision du CBIR • Comparaison avec Cortina (Quack04) • Test utilisateurs – 10 participants • Comparaison avec Google Images • Structuration sémantique des résultats appréciée • Amélioration de l’interactivité perçue comme utile

  27. Construction d’un thésaurus géographique • Définition d’un thésaurus géographique (Hill99) • Élément = (nom, coordonnées, type) • Structure d’un thésaurus géographique • Organisation hiérarchique (relation isA) • Notre Dame de Paris est une cathédrale • Inclusion spatiale • Notre Dame de ParisParisÎle de FranceFrance • Non considérée dans la définition de Hill

  28. Sources d’information • Réutilisation d’une ressource existante et enrichissement automatique • Geonames (geonames.org) : base de données géographiques constituée manuellement • Wikipédia : Nombre important d’articles décrivant des toponymes • Alltheweb : moteur de recherche d’informations • Panoramio – partage d’images géo-référencées • >6 millions d’images + descriptions • Validation du contenu

  29. Gazetiki Plus de 7 millions d’entités géographiques Thésaurus couvrant la plupart des régions du monde Construction d’un thésaurus géographique Extraction Golden Gate Bridge Gazetiki Sources de données Extraction / Analyse Localisation 37,819 -122, 479 Catégorisation Bridge Classement 253300 85000

  30. Extraction de toponymes et localisation • Extraction de toponymes • Wikipédia – titres des articles • Panoramio – dictionnaire de concepts géographiques + règles d’extraction • Localisation • Wikipédia – coordonnées de l’article • Panoramio – statistiques sur les images décrites par un toponyme Longitude : 21,2478 Latitude : 45,757

  31. Catégorisation et classement • Catégorisation • Wikipédia – dictionnaire du domaine + utilisation de la première phrase, des catégories et de l’Infobox • Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb • Classement – deux composantes • Panoramio nombre d’images x nombre d’utilisateurs • AlltheWeb nombre de résultats +

  32. Évaluation de Gazetiki • 15 villes: comparaison avec TagMaps (Rattenbury07) ou Geonames • Couverture et précision améliorées par rapport à TagMaps • Localisation avec Panoramio • Majorité des coordonnées à <200 m • Catégorisation

  33. ThemExplorer – recherche d’images de toponymes • Exploitation de Gazetiki et de PIRIA • Présentation de noms d’entités précis • Pas de divisions administratives • Caractéristiques • Navigation basé sur une carte interactive fournie par Yahoo! • Navigation selon des catégories • CBIR parmi les images du même toponyme • ThemExplorer - démo vidéo

  34. Évaluation de ThemExplorer • Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants • Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants • Test utilisateurs – 8 participants • Comparaison avec World Explorer (Ahern07) • Navigation selon des catégories et CBIR bien appréciées • Couverture de Gazetiki sensiblement meilleure que celle de TagMaps • Problème avec les tags apparaissant en double

  35. CelebWiki- structure pour les noms de personnalités • Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles • Infobox, catégories, tableaux, texte de l’article • Extraction • Données biographiques • Données relatives à leur activité • Ajout d’une mesure de pertinence • Ajout d’une mesure de proximité conceptuelle

  36. Évaluation de CelebWiki • 20 noms d’acteurs, musiciens et footballeurs • 8 participants au test • Comparaison avec la ressource linguistique de Ask • Pertinence des termes proches • Couverture (370 de requêtes)

  37. Safir – recherche de noms de personnalités • Exploitation de CelebWiki et de PIRIA • Caractéristiques • Représentation conceptuellement structurée des noms de célébrités • Utilisation des informations dans CelebWiki • Proposition de requêtes proches • Noms de personnalités associées • Requêtes plus génériques • CBIR parmi les images de la même personne • Safir - démo vidéo (lien à mettre)

  38. Safir – recherche de noms de personnalités

  39. Évaluation de Safir • Précision de la recherche • Comparaison avec Google Image sur 20 noms de personnalités, avec 5 participants • La reformulation des requêtes n’améliore pas la précision des résultats • Meilleure précision pour Safir dans le cas des footballeurs

  40. Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Structuration de connaissances • Création de ressources • Applications • Conclusions et perspectives 14/10/2008

  41. Conclusions • Structuration automatique de connaissances à grande échelle à partir du Web • Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents • Proposition d’une méthode de recherche sémantique d’images sur Internet • Intégration des structures linguistiques et du CBIR • Application à trois domaines conceptuels • Noms communs • Toponymes • Noms de personnalités • Résultats très encourageants pour les deux premiers cas

  42. Perspectives • Traitement des requêtes complexes • Résultats positifs dans la campagne d’évaluation ImageCLEF

  43. Perspectives • Focalisation du travail sur le domaine géographique • Amélioration de la structuration des connaissances • Catégorisation multilingue • Ajout de nouvelles relations : inclusion spatiale, synonymie • Amélioration des traitements par le contenu • Descriptions locales des images (sacs de mots visuels) • Classification supervisée • Annotation automatique d’images géo-référencées • Algorithme basé sur un k-PP • Une majorité de ces pistes s’inscrivent dans le projet ANR Georama (CEA List – Exalead - ENSTB)

  44. Publications au cours de la thèse • Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos ThemExplorer: Finding and Browsing Geo-referenced Images, CBMI 2008, June 18 - 20, London, UK. • Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Gazetiki: Automatic Creation of a Geographical Gazetteer, JCDL 2008 , June 16 - 20, Pittsburgh, USA. • Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos A Conceptual Approach to Web Image Retrieval , LREC 2008, May 28 - 30, 2008, Marrakech, Morroco. • Adrian Popescu, Ioannis Kanellos Multilingual and content based access to Flickr, ICTTA 2008, April 7 - 11, 2008, Damascus, Syria.  • Adrian Popescu, Pierre-Alain Moëllic, Ioannis Kanellos Utilisation de structures sémantiques pour la recherche d'images sur Internet, ECOI Workshop, in conjunction with EGC 2008, January 29, 2008, Nice, France.  • 2007 • Adrian Popescu, The RIAO 2007 Conference - A Personal View , ACM SIGIR Forum, December 2007 • Adrian Popescu Large Scale Semantic Structures for Image Retrieval, ACM Multimedia 2007, September 24 - 29, Augsburg, Germany - doctoral symposium.  • Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Improving Image Retrieval Using Semantic Resources, to appear as book chapter in the Springer Series in Computational Intelligence • Adrian Popescu, Christophe Millet, Pierre-Alain Moëllic Ontology Driven Content Based Image Retrieval, CIVR 2007 - posters session, July 9 - 11, 2007, Amsterdam, The Netherlands.  • Adrian Popescu Image Retrieval Using a Multilingual Ontology, RIAO 2007, May 30 - June 1, 2007, Pittsburgh, USA. • Christian Fluhr, Gregory Grefenstette, Adrian Popescu Toward a common semantics between Media and Languages, IWRIDL, December 12-15, 2006, Kolkata, India • Adrian Popescu, Christophe Millet, Gregory Grefenstette, Pierre-Alain Moëllic, Patrick Hède Imaging Word - Wording Images, SAMT 2006 - poster session, December 6 - 9, 2006, Athens, Greece. • Adrian Popescu, Gregory Grefenstette, Pierre-Alain Moëllic Using Semantic Commonsense Resources in Image Retrieval, SMAP 2006, December 4 - 5, 2006, Athens, Greece.

  45. Références • (Ahern07) • (Fellbaum98) • (Grefenstette07) • (Guha91) • (Hill99) • (Joint04) • (Liu07) • (Quack04) • (Ponzetto07) • (Rattenbury07) • (Rosch76) • (Sanderson99)

  46. Applications 14/10/2008

More Related