420 likes | 581 Views
Extraction d’informations géographiques à partir du Web. Applications pour la recherche et l’annotation d’images. Adrian Popescu*,**. * CEA LIST ** Télécom Bretagne adrian.popescu@telecom-bretagne.eu. LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles.
E N D
Extraction d’informations géographiques à partir du Web. Applications pour la recherche et l’annotation d’images Adrian Popescu*,** * CEA LIST ** Télécom Bretagne adrian.popescu@telecom-bretagne.eu LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles 18/09/2008
Plan de la présentation • État de l’art • Structuration automatique d’un thésaurus géographique • Recherche d’images géo-référencées • Annotation d’images géo-référencées 18/09/2008
Points de départ • Grande quantité d’informations géographiques présentes sur le Web • ~ trois millions de nouvelles images géo-référencées sur Flickr par mois • Émergence très rapide du Web mobile • Le domaine géographique se prête bien à une structuration des connaissances • Constitution manuelle des bases de données géographiques (très) coûteuse • Thésaurus géographiques utiles dans une variété d’applications • $, €, £, ¥
Bases de données géographiques • Définition (Hill, 1999) Élément = (nom, coordonnées, type) • Structure • Organisation hiérarchique – au minimum trois niveaux de détail • Notre Dame de Paris est une cathédrale • Inclusion spatiale • Notre Dame de ParisParisÎle de FranceFrance • Pas considérée dans la définition de Hill • Peu (ou pas) d’information spatiale • Exemples • Geonames ~ 6000000 éléments • Alexandria Digital Library ~ 5000000 éléments
Bases de données géographiques existantes • Dans leur grande majorité, constituées manuellement • Utilisation de bases de données préexistantes • USGS (United States Geological Survey) • Couverture très variable selon les pays • Cas de Geonames : • La variabilité de la couverture est fortement problématique pour des applications grand public
Constitution automatique des bases de données géographiques • TagMaps (Rattenbury, 2007) • http://tagmaps.research.yahoo.com/ • Analyse statistique multi-échelle du corpus géo-référencé de Flickr • Extraction de toponymes • Extraction de coordonnées • Association d’une mesure de pertinence • Critique • Précision de 85% pour un rappel de 50% • Pas de structuration conceptuelle et spatiale
Autres travaux • Projet SPIRIT (UE) • Catégorisation de pages Web ayant une composante géographique • Constitution d’ontologies du domaine • Projet TRIPOD (UE) • Constitution d’ontologies du domaine • Applications multimédia • Annotation spatiale d’images (sans traitement d’images) • DBPedia – extraction des pages géo-référencées de Wikipédia (Auer, 2007) • http://dbpedia.org • Noms géographiques + coordonnées
Recherche d’images géo-référencées • Exploitation du géo-référencement afin d’améliorer la qualité des résultats • CBIR (O’Hare, 2005) • Clustering multimodal (Kennedy, 2008) • Panoramio – plateforme de partage d’images géo-référencées • > 6 000 000 d’images • Validation des photographies • Utilisée dans Google Earth et Google Maps • Flickr • > 50 000 000 d’images • Pas de validation • Utilisé dans World Explorer (avec TagMaps) (Ahern, 2007)
Annotation d’images géo-référencées • Flickr « machine tags» • Recommandation ZoneTag (Naaman, 2007) basée sur la la proximité spatiale ou temporelle • Recommandation basée sur la co-occurrence de tags dans une grande collection d’images (> 50 millions) • Traitement du contenu des images • Souvent mentionné (O’Hare Exploitation du géo-référencement afin d’améliorer la qualité de l’annotation • Peu utilisé (Chevallet, 2005), (Lim, 2007)
Annotation automatique - SnapToTell • Annotation automatique d’images géo-référencées (Chevallet, 2005), (Lim, 2007) • STOIC 101 database • Images de Singapore • 101 objets, 5278 Images • Descripteurs de bas niveau globaux (Chevallet, 2005) • Descripteurs de bas niveau globaux et locaux (Lim, 2007) • Détection des régions « discriminantes » dans les images • Combinaison de descripteurs + géo-référencement 92% de réussite sur 100 images (88% sans géo-référencement)
Gazetiki - constitution automatique d’un thésaurus géographique • Adaptation de méthodes de TAL et statistiques pour le domaine géographique • Respect de la définition de la structure d’un thésaurus de (Hill, 1999) • Traitement des informations provenant de sources d’informations hétérogènes • Approche multilingue • anglais, français, allemand, néerlandais, espagnol, italien
Objectifs et défis • Extraction • Noms géographiques (multilingue) • Coordonnées géographiques • Catégories parent • Mesure de pertinence • Entités englobantes • Synonymes intra- et inter-langues • Extension du modèle de (Hill, 1999) Élément = (nom, coordonnées, type, pertinence, entité englobante, synonymes) • Défis • Automatisation du processus • Équilibre précision – couverture • Obtention de données brutes (libres de droits) • Intégration en une seule base
Sources de données GeoNames ???
Extraction de noms géographiques • Titres de Wikipédia • Articles avec des coordonnées (~ 240000 pour l’anglais) • Articles sans coordonnées mais pertinents pour le domaine géographique (~ 38000 pour l’anglais) • Règles dans Panoramio
Extraction des coordonnées • Wikipédia – utilisation de 31 motifs introduisant les coordonnées • Panoramio – moyennes des coordonnées des images représentatives – Traian Square Longitude :21.2478 Latitude : 45.757
Vocabulaire géographique • Basé sur les catégories géographiques de Geonames • Elimination de certaines catégories inintéressantes pour les applications grand public • Base militaire, etc. • Ajout d’autres catégories • Divisions administratives: quarter, city, arrondissement etc. • Folly, dolmen etc. • Traduction semi-automatique des catégories • Section « traduction » • Vérification manuelle • Environ 300 éléments traduits en six langues
Catégorisation - Wikipédia • Première phrase • Infobox + section « Catégories » + première phrase • Procédure de vote + statistiques du Web • Catégorisation multilingue • Procédure de vote + statistiques du Web
Panoramio – catégorisation basée sur les résultats moteur de recherche • Statistiques sur les catégories géographiques • Utilisation de « définitions »
Classement des entités • Utile en recherche d’informations • Mesure statistique exploitant le géo-référencement et les résultats d’un moteur de recherche • Panoramio- popularité nombre d’images x nombre d’utilisateurs • Moteur de recherche (Alltheweb) nombre de documents • Priorité donnée à Panoramio • Résultats • Villes : London, Venice, Paris, Barcelona • Autres : Eiffel Tower, Tower Bridge, Niagara Falls, Golden Gate Bridge
Inclusion spatiale – en cours • Traian Square Timisoara Timis Roumanie? • Traitement de motifs (TAL) • Raisonnement spatial • Déduction de la forme et de la surface des divisions administratives • Panoramio, Flickr - villes, départements, régions • Geonames – pays • Comparaison des coordonnées • Pour un couple de coordonnées, trouver les entités l’incluant
Utilité de l’inclusion spatiale • Désambiguïsation des noms géographiques ambigus • Parthenon (Athens) -> temple • Parthenon(??) -> museum • Pathenon (Brussels) -> restaurant • Expansion automatique des requêtes avec des noms géographiques ambigus • Raisonnement spatial • Représentation diversifiée des divisions administratives par leur entités contenues
Synonymie - à faire • Intra-langue • Extraction des noms alternatifs de Wikipédia • Centre Pompidou = Musée National d’Art Contemporain • Extraction d’acronymes à partir du Web • Musée National d’Art Contemporain = MNAC • Inter-langues • Extraction des traductions de Wikipédia • Musée d’Orsay = Orsay Museum • Autrement Pour deux noms géographiques Si coordonnées très proches ET parties de noms communes synonymes Si coordonnées très proches ET même catégorie synonymes
Évaluation de Gazetiki • Extraction des entités • ~90% de précision • Erreurs fréquentes Adjectif + concept géographique • Catégorisation • Wikipédia en anglais 95% • Confirmés par une évaluation multilingue • Panoramio (Web) 90%
Évaluation de Gazetiki • Positionnement des éléments extraits à partir de Panoramio • La majorité des éléments à moins de 200 m des coordonnées dans Geonames • Classement • « Gold standard » - TripAdvisor • Comparaison avec TagMaps • Meilleurs résultats dans 11 cas sur 15
ThemExplorer – recherche d’images géo-référencées • Gazetiki = (Geonames + Wikipédia + Panoramio) • Images géo-référencées de Flickr + images complémentaires de Google Images • Navigation selon des catégories géographiques • Possibilité de sélectionner les catégories intéressantes • Recherche par le contenu dans des espaces conceptuellement cohérents • Définis par les noms géographiques • Descripteurs globaux (couleur/texture) et locaux (sacs de mots visuels)
Résultats • Tests de précision • 6 utilisateurs; 20 images • Limitation du CBIR • Spatiale vs. spatiale + mots clef • Fusion des descripteurs • Globaux (LEP) • Locaux (BAG) • Globaux + locaux • Test avec 8 utilisateurs • ThemExplorer vs. World Explorer • ++ modes de navigation proposés • ++ couverture de Gazetiki • -- doublons
Annotation automatique d’images géo-référencées d’objets connus • Création automatique d’une base de référence • Objets bien représentés dans Panoramio (> 15 images) • Téléchargement d’images à partir de Panoramio et Flickr (limitée à 500 images per objet) • Filtrage de la base – adaptation de k-PP • Annotation des images • Mise en place d’un algorithme d’annotation basé en deux étapes sur k-PP • Utilisation de la base de référence • Création d’une base de test diversifiée • Simulation d’une situation réelle • 736 images (50% bonnes – 50% fausses)
Répartition des erreurs Étape 1 vs. étape 2 Distribution dans des classes génériques
Recherche future • Compléter le thésaurus • Finir la catégorisation, l’inclusion spatiale et la synonymie • Ajouter des nouvelles dimensions • Pertinentes pour certaines catégories géographiques • Mettre en valeurs les nouvelles dimensions du thésaurus en recherche et annotation d’images • Modifier l’algorithme d’annotation d’images • Prise en compte de la distribution spatiale des images • Mettre en place une application de « e-Tourisme » proactive et personnalisable
Références • (Ahern, 2007) Ahern, S., Naaman, M., Nair, R. and Yang, J. 2007. World Explorer: Visualizing Aggregate Data from Unstructured Text in Geo-Referenced Collections. In Proc. of JCDL 2007 (Vancouver, Canada, June 2007). • (Chevallet, 2005) Chevallet, J.-P., Lim, J.-H., Leong, M.-K. Object Identification and Retrieval from Efficient Image Matching. Snap2Tell with STOIC dataset. In Proc. of AIRS (Jeju Island, Korea, 2005). • (Hill, 1999) • (Kennedy, 2008) • (Lim, 2007) Lim, J.-H., Li, Y., You, Y., Chevallet, J.-P. Scene Recognition with Camera Phones for Tourist Information Access. In Proc. of IEEE ICME (Beijing, China, 2007). • (Naaman, 2007) Ames, M., Naaman, M. Why We Tag: Motivation for Annotation in Mobile and Online Media. In Proc of SIGCHI Conference on Human Factors in Computing Systems. San Jose, CA, USA, 2007. • (O’Hare, 2005) O’Hare N., Gurrin, C., Smeaton A. F., Jones G. F. G. 2005. Combination of content analysis and context features for digital photograph retrieval. In. Proc. of EWIMT 2005. • (Rattenbury, 2007) • SPIRIT project page • TRIPOD project page