1 / 54

La Recherche d’Information

La Recherche d’Information. Janvier 2001. Plan. La R echerche d' I nformations (RI) Evaluation Méta-données le « vague » en RI Domaines d’application : Informations Multilingues Informations Multimédia Librairies numériques Web Documents structurés. La Recherche d'Informations 1/8.

fisseha
Download Presentation

La Recherche d’Information

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La Recherche d’Information Janvier 2001

  2. Plan • La Recherche d'Informations (RI) • Evaluation • Méta-données • le « vague » en RI • Domaines d’application : • Informations Multilingues • Informations Multimédia • Librairies numériques • Web • Documents structurés Max CHEVALIER - chevalie@irit.fr

  3. La Recherche d'Informations 1/8 • Née il y a plus de 40 ans • Tâche principale : retrouver des documents pertinents en réponse à un besoin en informations. • Sujets de la RI : • Comparaison Exacte vs Partielle • Modèles Déterministes vs Probabilistes • Langage de requête Artificiel vs Naturel • Représentation A priori vs A posteriori • Classification • … • La RI : 3 « ciments » : La théorie, l’expérimentation, la pratique. Max CHEVALIER - chevalie@irit.fr

  4. La Recherche d'Informations 2/8 • La Théorie • Devenue à tâtons • Sujets • Fusion de données • Résumé • Visualisation du Web • Traitement du langage naturel en RI (NLP in IR) • Logique & modèles « incertains » • Dimensions temporelles • ... Max CHEVALIER - chevalie@irit.fr

  5. La Recherche d'Informations 3/8 • L'Expérimentation • Nécessaire pour valider une idée, un projet • Sujets • IHM • Visualisation • Travail en contexte, approches cognitives • Croisement de langues • Croisement de média • RI basée sur des corpus • Librairies numériques • TREC Max CHEVALIER - chevalie@irit.fr

  6. La Recherche d'Informations 4/8 • La Pratique • Permet d'apprécier le comportement de l'utilisateur en « grandeur nature » • Pour le Web, l'étude pratique est aussi importante que l'expérimentation • Sujets • Publication électronique • RI orientée tâche • Exploration des données (data mining) • Découverte de connaissance • Apprentissage des distances (distance Learning) Max CHEVALIER - chevalie@irit.fr

  7. La Recherche d'Informations 5/8 • Processus général de la RI Processus en U Besoin en Informations Objets "fictifs" Représentation Représentation Requête Objets indexés Comparaison (matching) Où se trouve l'utilisateur ?? Max CHEVALIER - chevalie@irit.fr

  8. La Recherche d'Informations 6/8 • Les modèles dans la RI • Bases théoriques pour calculer la réponse à une requête. • Syntaxe, expressivitédulangage de requête + représentation des documents. • Plus courants : • Booléen • Vectoriel • Probabiliste • … • N. Fuhr : Modèles en logique propositionnelle (Datalog) Max CHEVALIER - chevalie@irit.fr

  9. La Recherche d'Informations 7/8 • Modèle Booléen • Repose sur les opérateurs booléens (et, ou, non) • Permet d ’établir des requêtes complexes • En général : Réponse exacte (les réponses correspondent ou pas) • Ex de requête : Recherche ET Informations • La réponse à cette requête ne seront que les documents qui possèdent à la fois les termes « Recherche » et « Informations » Max CHEVALIER - chevalie@irit.fr

  10. La Recherche d'Informations 8/8 • Modèle Vectoriel • Repose sur l’algèbre vectoriel • Les documents et la requête = vecteur poids termes d ’indexation • La correspondance entre les vecteurs documents et celui de la requête : • produit scalaire • mesure de cosinus • distance métrique Autres Modèles : cf [Baeza-Yates, 1998] ou [Salton, 1983] Max CHEVALIER - chevalie@irit.fr

  11. Evaluation en RI

  12. Evaluation 1/5 • Pourquoi Evaluer ? • Tout système conçu pour aider l’homme dans une tâche doit être évalué. • IR : domaine non cartésien • Divers angles pour évaluer : • Performance de la RI (vitesse de réponse par ex) • Efficacité de la RI • Efficacité de la RI Max CHEVALIER - chevalie@irit.fr

  13. Evaluation 2/5 • Evaluation en Laboratoire : • Déf : • Un système : Ens. Méthodes et procédures pour l’indexation & la recherche. • Une collection de documents : Ens. d’informations structurées par un auteur. • Une collection de requêtes • Critère Basique d’évaluation : Que constitue un bon document (pertinent) ? Max CHEVALIER - chevalie@irit.fr

  14. Evaluation 3/5 • Mesure de l’efficacité : Rappel Précision • Concevoir une Expérimentation • Documents et requêtes réutilisés dans différents tests pour pouvoir comparer les systèmes • Un grand nombre de tests doivent être réalisés pour vérifier l’étendue des paramètres du système • Intérêt d’expérimentations Parallèles • TREC (Text REtrieval Conference) • CLEF, NCTIR... Max CHEVALIER - chevalie@irit.fr

  15. Evaluation 4/5 • Impliquer l’utilisateur • Problème posés par : • l’interaction • le jugement propre à l’utilisateur • D’un point de vue cognitif : • Un besoin d’informations provient d’un état des connaissances (EC) incomplet • Le processus pour améliorer cet EC est purement cognitif pour la part de l’utilisateur • La RI n ’est qu’une partie de ce processus • OKAPI : famille de SRI expérimentaux pour utilisateurs finals. Max CHEVALIER - chevalie@irit.fr

  16. Evaluation 5/5 • IR Expérimentale : • Non interactive, orientée système, algorithmique, • -> Performances relatives au système • IR Interactive : • Cognitive, centrée sur l’utilisateur • -> Permet de comprendre quel système, quelles structures d’informations et fonctionnalités de l’interface, permettent au mieux la recherche d’informations dans le contexte. Max CHEVALIER - chevalie@irit.fr

  17. Les Méta-données

  18. Méta-Données 1/4 • Méta-Données ? • « Données sur les données » • Différentes disciplines, différents « sens » • Divers types de Méta-données sont nécessaires : • Découverte : Qu’est-ce qui existe ? Localisation ? • Termes & Conditions : Règle pour y accéder ? • Données administratives : Date de création ? • Provenance : Origine de tout ou partie d’un objet • Contexte : Qui l’a créé ? Pourquoi ? • Structure : Format de fichier ? Table des matières ? • Contenu : De quoi traite l’objet ? • Historique de l’utilisation • Liens, Relations : Liens vers d’autres objets ? Max CHEVALIER - chevalie@irit.fr

  19. Méta-Données 2/4 • Typologie des méta-données (Dempsey & Heery sur le Web) Max CHEVALIER - chevalie@irit.fr

  20. Méta-Données 3/4 • Dublin Core • Stuart Weibel 1995 • -> Identifier et définir un jeu simple d’éléments permettant de décrire des ressources sur les réseaux. • Simple • Indépendant de la syntaxe • Modifiable • Quelques exemples : • Title, Subject, Creator, Description, Date, Language… • Subject(scheme=Dewey Decimal System)=004.251 Supercomputers • Relation(type = ContainedIn)(identifier = url)=www.dlib.org Max CHEVALIER - chevalie@irit.fr

  21. Méta-Données 4/4 • MARC • Machine Readable Catalogue Format • 1960, -> bibliothèques • Beaucoup de formats (USMARC, UNIMARC, BIBSYS MARC…) • Ex : UNIMARC • 00x Identification block • 1xx Coded Information block • 2xx Descriptive Information block • 3xx Notes block • 4xx Linking entry block • 5xx Related title block • 6xx Subject Analysis block • 7xx Intellectual responsability block • 8xx International use block • 9xx National use block Max CHEVALIER - chevalie@irit.fr

  22. Le « vague » en RI

  23. Le « Vague » en RI 1/2 • Vague : modélisé en RI par des travaux sur la logique floue • Travaux de G. Pasi & G. Bordogna : • Appliquer les concepts de Logique floue sur le modèle booléen. • « Trouver les documents récents qui traitent principalement du SIDA » Max CHEVALIER - chevalie@irit.fr

  24. Le « Vague » en RI 2/2 • Travaux de G. Pasi & G. Bordogna • Langage de requête : • Pondération des termes de la requête • q = <Meurtres, 1> AND <Journalistes, 0.6> • Utilisation de « poids linguistiques » • Très important, moyennement important, peu important... • q = <Meurtres, très important> AND <Journalistes, moyennement important> • Quantifieurs linguistiques pour agréger les conditions de sélection • at least n • all • Exemple : au moins 2 termes parmi 4... Max CHEVALIER - chevalie@irit.fr

  25. Les applications de la RI

  26. Applications de la RI • Informations multilingues • Informations multimédia • Bibliothèques digitales • Documents structurés & Web Max CHEVALIER - chevalie@irit.fr

  27. RI Multilingue

  28. Informations Multilingues 1/6 • MLIA : MultiLingual Information Access • Définition : • Accéder, rechercher, retrouver des informations dans des collections en quelque langage que ce soit à n’importe quel niveau de spécificité et inclut tous les problèmes induits par la gestion d’informations multilingues (encodage des caractères, identification du langage…) • Multidisciplinaire : RI, TALN... • CLIR : Cross-Lingual Information Retrieval : requête dans un langage pour retrouver des documents dans un autre langage Max CHEVALIER - chevalie@irit.fr

  29. Informations Multilingues 2/6 • Gestion des textes multilingues • conversion des caractères • extraction des mots (tokenization) • suppression des mots vides • normalisation (radicalisation : GB/Porter…) • CLIR • Machine de traduction (Machine-translation) • Basée sur la Connaissance (Knowledge based) • Basée sur les Corpus (Corpus based) Max CHEVALIER - chevalie@irit.fr

  30. Informations Multilingues 3/6 • Traduction automatique • Traduction dans tous les autres langages cibles. • De tous les documents • Tâches lourdes et redondance de l’information • Non viable si plusieurs langages de requête car les documents sont traduits dans toutes les langues • De la requête • Rapide • ambiguïté car pas de contexte Max CHEVALIER - chevalie@irit.fr

  31. Informations Multilingues 4/6 • Basées sur la Connaissance • Thésaurus • Multilingues avec vocabulaire contrôlé : bon résultats pour la recherche et l ’indexation • Pas de problème d'ambiguïté • Ontologie lourde à construire et à mettre à jour • Affectation des termes au document lourde • Entrainement nécessaire pour utiliser le thésaurus • Dictionnaires bilingues • Remplacement des mots de la requête par les traductions possibles • Expansion de requête • Pour des langues : difficile de trouver un dictionnaire • Ambiguïté, termes généraux, expressions Max CHEVALIER - chevalie@irit.fr

  32. Informations Multilingues 5/6 • Basées sur les corpus • Proposent une équivalence lexicale entre les lang. • Corpus parallèles • Documents traduits dans les lang. cible/destination • Latent Semantic Indexing • Bons résultats avec GB & FR, Espagne, Grèce et JP • Collections difficiles à obtenir • Corpus comparables • Documents : même thème, même période, même genre • Aligne les documents par rapport à leur descripteurs (date, mots-clés, noms propres…) • Ex: Swiss News Agency : Allemand, Français, Italien • Plus faciles a trouver • Alignement plus complexe à réaliser Max CHEVALIER - chevalie@irit.fr

  33. Informations Multilingues 6/6 • Résumé • La plupart des travaux se basent uniquement sur 2 langues • Limitations de chaque méthode • Manque de ressources (corpus, dictionnaires…) • Plus de travaux doivent se concentrer sur les mécanismes inter-langues. • MT : 80 % monolingue Domaine général • Dict : 80 % … … • Corpus : 80 % … … 90 % … Domaine spécifique Max CHEVALIER - chevalie@irit.fr

  34. RI Multimédia

  35. Informations Multimédia 1/3 • Images • Applications : • Prévention des crimes, Propriété intellectuelle (TradeMark) • Journalisme & publication, diagnostic médical • 3 Niveaux d’études : • 1 - Bas niveau : attributs primitifs • forme, texture, couleur, localisation spatiale • 2 - Niveau dérivé ou attributs logiques • objets d’un type donné, objets nommés • 3 - Niveau Subjectif ou attributs abstraits • événements spécifiés ou type d’activité • signification émotionnelle ou symbolique • Importance de l’interface et intégration de l’utilisateur Max CHEVALIER - chevalie@irit.fr

  36. Informations Multimédia 2/3 • Son • Format de base : WAV, MIDI • Différents formats de compression (MP3, AIFF…) • Musique : Méta-données ou RI traditionnelle (MIDI). • Dialogue : • Phonèmes : « More details » -> m oo r d ii t ei l z • 4 Approches : • Repérage de mots • Reconnaissance du locuteur • Recherche basée sur les phonèmes • Recherche basée sur les mots (Tâche TREC) Max CHEVALIER - chevalie@irit.fr

  37. Informations Multimédia 3/3 • Vidéo • Taille importante (1 sec = 18 Mo à 720Ko/im) • Vidéo = 3 dimensions (x, y, t) • 4 Formats compression : MPEG 1 - 2 - 4 - 7 • MPEG 1 & 2 : 3 types de Frames I,B,P. • MPEG 4 : Identifie les objets dans les séquences. • MPEG 7 : Inclus un aspect sémantique, Le « descripteur » : langage balisé (XML) • Indexation par identification de séquences et méta-données • Indexation son & vidéo synchronisés « navigation » vs « recherche » pour les médias continus (vidéo, son) Max CHEVALIER - chevalie@irit.fr

  38. Librairies Digitales

  39. Librairies Digitales 1/3 • Une LD est : • un service, • une architecture, • un ensemble de ressources informatives, bases de données textuelles, sons, images… • un ensemble d’outils et fonctionnalités permettant de localiser, d’utiliser les ressources disponibles. • normalement centrée sur l’utilisateur • RI joue un rôle clé, mais… Chercher ne suffit pas ! Max CHEVALIER - chevalie@irit.fr

  40. Librairies Digitales 2/3 • Bibliothèque classique : • trouver, identifier, sélectionner, obtenir les documents à partir d’informations. • Bibliothèque numérique: • Localiser, sélectionner parmi des sources pertinentes • Y retrouver des documents • Interpréter ce qui est retrouvé • Gérer les informations filtrées localement • Partager ces résultats avec les autres. Max CHEVALIER - chevalie@irit.fr

  41. Librairies Digitales 3/3 • Le Web est-il une DL ? • NON • Web : • a un contenu incomplet • manque de standards et de contrôles de qualité • non catalogué • rappel trop élevé par rapport à la pertinence • pas d’organisation responsable • Mais il y a plusieurs LD sur le Web !! Max CHEVALIER - chevalie@irit.fr

  42. Le WEB

  43. Web 1/7 • Comment retrouver des documents sur le Web ? • Par navigation : • URL connue • Par lien présent dans une autre page Web • Service d’alerte (méthode PUSH) • Par recherche : • Moteur de recherche Web • 1 Page Web = 1 document Max CHEVALIER - chevalie@irit.fr

  44. Web 2/7 Moteurs basés sur les requêtes Les index sont construits automatiquement. Automatique Listes classifées Les catalogues répertoriant les pages par thèmes sont construits manuellement Manuelle • Indexation sur le Web Max CHEVALIER - chevalie@irit.fr

  45. Web 3/7 • Différences au sein de l’indexation • Particularités du Web • Liens hypertextes = relations entre les documents • classification • Avantage : [Botafogo93] proposer des classes de documents qui dépendent d’un contexte, d’un thème… à partir des liens qu’ils possèdent entre eux = Réduction de la quantité d’informations à stocker Max CHEVALIER - chevalie@irit.fr

  46. Web 4/7 • Utilisation des liens Hypertextes • Hypertexte bien réalisé : • Baisse du risque de « perte » de l’utilisateur (hiérarchie) • Organisation plus rigoureuse de l’information (navigation) • Analyse de l’hypertexte [Botafogo93] • Plus le nombre entre 2 nœuds est grand, plus la relation entre les nœuds est importante • Permettant de : • détecter le nœud index de l’hypertexte (liens out) • détecter les nœuds références (liens in) • mesurer la compacité de l’hypertexte • mesurer la stratification (nbre de « couches ») Max CHEVALIER - chevalie@irit.fr

  47. Web 5/7 • Utilisation dans la RI • Classification : • Par contenu • Par liens • => Utilisation mixte des 2 • Analyse Structurelle : • Identification de pages d’acceuil et pages références • indexation de la structure globale • Mesures : • Non spécifique au Web mais adéquates • qualité et complexité d’une portion du Web Max CHEVALIER - chevalie@irit.fr

  48. Web 6/7 • Algorithmes existants • HITS (Hyperlink Induced Topic Search) • PageRank • Algo. de génération de liens auto. • [Salton96], [Allan97], [Agosti97], [Melluci99] • relation de similarité entre nœuds • détection de liens de différents types (révision, résumé, extension, équivalence, contraste, comparaison, tangence, agrégation) Max CHEVALIER - chevalie@irit.fr

  49. Web 7/7 • Evaluation de la RI sur le Web • Pb : • Dynamique du Web • Hétérogénéité des pages et des requêtes • Hyperliens entre les pages • Base de test : tâche Web de TREC • performance de la RI sur le Web (1999) • Small Task - 2 Go (250.000 docs) • Large Task - 100 Go (18.5 Millions docs) Max CHEVALIER - chevalie@irit.fr

  50. Documents structurés

More Related