570 likes | 779 Views
La Recherche d’Information. Janvier 2001. Plan. La R echerche d' I nformations (RI) Evaluation Méta-données le « vague » en RI Domaines d’application : Informations Multilingues Informations Multimédia Librairies numériques Web Documents structurés. La Recherche d'Informations 1/8.
E N D
La Recherche d’Information Janvier 2001
Plan • La Recherche d'Informations (RI) • Evaluation • Méta-données • le « vague » en RI • Domaines d’application : • Informations Multilingues • Informations Multimédia • Librairies numériques • Web • Documents structurés Max CHEVALIER - chevalie@irit.fr
La Recherche d'Informations 1/8 • Née il y a plus de 40 ans • Tâche principale : retrouver des documents pertinents en réponse à un besoin en informations. • Sujets de la RI : • Comparaison Exacte vs Partielle • Modèles Déterministes vs Probabilistes • Langage de requête Artificiel vs Naturel • Représentation A priori vs A posteriori • Classification • … • La RI : 3 « ciments » : La théorie, l’expérimentation, la pratique. Max CHEVALIER - chevalie@irit.fr
La Recherche d'Informations 2/8 • La Théorie • Devenue à tâtons • Sujets • Fusion de données • Résumé • Visualisation du Web • Traitement du langage naturel en RI (NLP in IR) • Logique & modèles « incertains » • Dimensions temporelles • ... Max CHEVALIER - chevalie@irit.fr
La Recherche d'Informations 3/8 • L'Expérimentation • Nécessaire pour valider une idée, un projet • Sujets • IHM • Visualisation • Travail en contexte, approches cognitives • Croisement de langues • Croisement de média • RI basée sur des corpus • Librairies numériques • TREC Max CHEVALIER - chevalie@irit.fr
La Recherche d'Informations 4/8 • La Pratique • Permet d'apprécier le comportement de l'utilisateur en « grandeur nature » • Pour le Web, l'étude pratique est aussi importante que l'expérimentation • Sujets • Publication électronique • RI orientée tâche • Exploration des données (data mining) • Découverte de connaissance • Apprentissage des distances (distance Learning) Max CHEVALIER - chevalie@irit.fr
La Recherche d'Informations 5/8 • Processus général de la RI Processus en U Besoin en Informations Objets "fictifs" Représentation Représentation Requête Objets indexés Comparaison (matching) Où se trouve l'utilisateur ?? Max CHEVALIER - chevalie@irit.fr
La Recherche d'Informations 6/8 • Les modèles dans la RI • Bases théoriques pour calculer la réponse à une requête. • Syntaxe, expressivitédulangage de requête + représentation des documents. • Plus courants : • Booléen • Vectoriel • Probabiliste • … • N. Fuhr : Modèles en logique propositionnelle (Datalog) Max CHEVALIER - chevalie@irit.fr
La Recherche d'Informations 7/8 • Modèle Booléen • Repose sur les opérateurs booléens (et, ou, non) • Permet d ’établir des requêtes complexes • En général : Réponse exacte (les réponses correspondent ou pas) • Ex de requête : Recherche ET Informations • La réponse à cette requête ne seront que les documents qui possèdent à la fois les termes « Recherche » et « Informations » Max CHEVALIER - chevalie@irit.fr
La Recherche d'Informations 8/8 • Modèle Vectoriel • Repose sur l’algèbre vectoriel • Les documents et la requête = vecteur poids termes d ’indexation • La correspondance entre les vecteurs documents et celui de la requête : • produit scalaire • mesure de cosinus • distance métrique Autres Modèles : cf [Baeza-Yates, 1998] ou [Salton, 1983] Max CHEVALIER - chevalie@irit.fr
Evaluation 1/5 • Pourquoi Evaluer ? • Tout système conçu pour aider l’homme dans une tâche doit être évalué. • IR : domaine non cartésien • Divers angles pour évaluer : • Performance de la RI (vitesse de réponse par ex) • Efficacité de la RI • Efficacité de la RI Max CHEVALIER - chevalie@irit.fr
Evaluation 2/5 • Evaluation en Laboratoire : • Déf : • Un système : Ens. Méthodes et procédures pour l’indexation & la recherche. • Une collection de documents : Ens. d’informations structurées par un auteur. • Une collection de requêtes • Critère Basique d’évaluation : Que constitue un bon document (pertinent) ? Max CHEVALIER - chevalie@irit.fr
Evaluation 3/5 • Mesure de l’efficacité : Rappel Précision • Concevoir une Expérimentation • Documents et requêtes réutilisés dans différents tests pour pouvoir comparer les systèmes • Un grand nombre de tests doivent être réalisés pour vérifier l’étendue des paramètres du système • Intérêt d’expérimentations Parallèles • TREC (Text REtrieval Conference) • CLEF, NCTIR... Max CHEVALIER - chevalie@irit.fr
Evaluation 4/5 • Impliquer l’utilisateur • Problème posés par : • l’interaction • le jugement propre à l’utilisateur • D’un point de vue cognitif : • Un besoin d’informations provient d’un état des connaissances (EC) incomplet • Le processus pour améliorer cet EC est purement cognitif pour la part de l’utilisateur • La RI n ’est qu’une partie de ce processus • OKAPI : famille de SRI expérimentaux pour utilisateurs finals. Max CHEVALIER - chevalie@irit.fr
Evaluation 5/5 • IR Expérimentale : • Non interactive, orientée système, algorithmique, • -> Performances relatives au système • IR Interactive : • Cognitive, centrée sur l’utilisateur • -> Permet de comprendre quel système, quelles structures d’informations et fonctionnalités de l’interface, permettent au mieux la recherche d’informations dans le contexte. Max CHEVALIER - chevalie@irit.fr
Méta-Données 1/4 • Méta-Données ? • « Données sur les données » • Différentes disciplines, différents « sens » • Divers types de Méta-données sont nécessaires : • Découverte : Qu’est-ce qui existe ? Localisation ? • Termes & Conditions : Règle pour y accéder ? • Données administratives : Date de création ? • Provenance : Origine de tout ou partie d’un objet • Contexte : Qui l’a créé ? Pourquoi ? • Structure : Format de fichier ? Table des matières ? • Contenu : De quoi traite l’objet ? • Historique de l’utilisation • Liens, Relations : Liens vers d’autres objets ? Max CHEVALIER - chevalie@irit.fr
Méta-Données 2/4 • Typologie des méta-données (Dempsey & Heery sur le Web) Max CHEVALIER - chevalie@irit.fr
Méta-Données 3/4 • Dublin Core • Stuart Weibel 1995 • -> Identifier et définir un jeu simple d’éléments permettant de décrire des ressources sur les réseaux. • Simple • Indépendant de la syntaxe • Modifiable • Quelques exemples : • Title, Subject, Creator, Description, Date, Language… • Subject(scheme=Dewey Decimal System)=004.251 Supercomputers • Relation(type = ContainedIn)(identifier = url)=www.dlib.org Max CHEVALIER - chevalie@irit.fr
Méta-Données 4/4 • MARC • Machine Readable Catalogue Format • 1960, -> bibliothèques • Beaucoup de formats (USMARC, UNIMARC, BIBSYS MARC…) • Ex : UNIMARC • 00x Identification block • 1xx Coded Information block • 2xx Descriptive Information block • 3xx Notes block • 4xx Linking entry block • 5xx Related title block • 6xx Subject Analysis block • 7xx Intellectual responsability block • 8xx International use block • 9xx National use block Max CHEVALIER - chevalie@irit.fr
Le « Vague » en RI 1/2 • Vague : modélisé en RI par des travaux sur la logique floue • Travaux de G. Pasi & G. Bordogna : • Appliquer les concepts de Logique floue sur le modèle booléen. • « Trouver les documents récents qui traitent principalement du SIDA » Max CHEVALIER - chevalie@irit.fr
Le « Vague » en RI 2/2 • Travaux de G. Pasi & G. Bordogna • Langage de requête : • Pondération des termes de la requête • q = <Meurtres, 1> AND <Journalistes, 0.6> • Utilisation de « poids linguistiques » • Très important, moyennement important, peu important... • q = <Meurtres, très important> AND <Journalistes, moyennement important> • Quantifieurs linguistiques pour agréger les conditions de sélection • at least n • all • Exemple : au moins 2 termes parmi 4... Max CHEVALIER - chevalie@irit.fr
Applications de la RI • Informations multilingues • Informations multimédia • Bibliothèques digitales • Documents structurés & Web Max CHEVALIER - chevalie@irit.fr
Informations Multilingues 1/6 • MLIA : MultiLingual Information Access • Définition : • Accéder, rechercher, retrouver des informations dans des collections en quelque langage que ce soit à n’importe quel niveau de spécificité et inclut tous les problèmes induits par la gestion d’informations multilingues (encodage des caractères, identification du langage…) • Multidisciplinaire : RI, TALN... • CLIR : Cross-Lingual Information Retrieval : requête dans un langage pour retrouver des documents dans un autre langage Max CHEVALIER - chevalie@irit.fr
Informations Multilingues 2/6 • Gestion des textes multilingues • conversion des caractères • extraction des mots (tokenization) • suppression des mots vides • normalisation (radicalisation : GB/Porter…) • CLIR • Machine de traduction (Machine-translation) • Basée sur la Connaissance (Knowledge based) • Basée sur les Corpus (Corpus based) Max CHEVALIER - chevalie@irit.fr
Informations Multilingues 3/6 • Traduction automatique • Traduction dans tous les autres langages cibles. • De tous les documents • Tâches lourdes et redondance de l’information • Non viable si plusieurs langages de requête car les documents sont traduits dans toutes les langues • De la requête • Rapide • ambiguïté car pas de contexte Max CHEVALIER - chevalie@irit.fr
Informations Multilingues 4/6 • Basées sur la Connaissance • Thésaurus • Multilingues avec vocabulaire contrôlé : bon résultats pour la recherche et l ’indexation • Pas de problème d'ambiguïté • Ontologie lourde à construire et à mettre à jour • Affectation des termes au document lourde • Entrainement nécessaire pour utiliser le thésaurus • Dictionnaires bilingues • Remplacement des mots de la requête par les traductions possibles • Expansion de requête • Pour des langues : difficile de trouver un dictionnaire • Ambiguïté, termes généraux, expressions Max CHEVALIER - chevalie@irit.fr
Informations Multilingues 5/6 • Basées sur les corpus • Proposent une équivalence lexicale entre les lang. • Corpus parallèles • Documents traduits dans les lang. cible/destination • Latent Semantic Indexing • Bons résultats avec GB & FR, Espagne, Grèce et JP • Collections difficiles à obtenir • Corpus comparables • Documents : même thème, même période, même genre • Aligne les documents par rapport à leur descripteurs (date, mots-clés, noms propres…) • Ex: Swiss News Agency : Allemand, Français, Italien • Plus faciles a trouver • Alignement plus complexe à réaliser Max CHEVALIER - chevalie@irit.fr
Informations Multilingues 6/6 • Résumé • La plupart des travaux se basent uniquement sur 2 langues • Limitations de chaque méthode • Manque de ressources (corpus, dictionnaires…) • Plus de travaux doivent se concentrer sur les mécanismes inter-langues. • MT : 80 % monolingue Domaine général • Dict : 80 % … … • Corpus : 80 % … … 90 % … Domaine spécifique Max CHEVALIER - chevalie@irit.fr
Informations Multimédia 1/3 • Images • Applications : • Prévention des crimes, Propriété intellectuelle (TradeMark) • Journalisme & publication, diagnostic médical • 3 Niveaux d’études : • 1 - Bas niveau : attributs primitifs • forme, texture, couleur, localisation spatiale • 2 - Niveau dérivé ou attributs logiques • objets d’un type donné, objets nommés • 3 - Niveau Subjectif ou attributs abstraits • événements spécifiés ou type d’activité • signification émotionnelle ou symbolique • Importance de l’interface et intégration de l’utilisateur Max CHEVALIER - chevalie@irit.fr
Informations Multimédia 2/3 • Son • Format de base : WAV, MIDI • Différents formats de compression (MP3, AIFF…) • Musique : Méta-données ou RI traditionnelle (MIDI). • Dialogue : • Phonèmes : « More details » -> m oo r d ii t ei l z • 4 Approches : • Repérage de mots • Reconnaissance du locuteur • Recherche basée sur les phonèmes • Recherche basée sur les mots (Tâche TREC) Max CHEVALIER - chevalie@irit.fr
Informations Multimédia 3/3 • Vidéo • Taille importante (1 sec = 18 Mo à 720Ko/im) • Vidéo = 3 dimensions (x, y, t) • 4 Formats compression : MPEG 1 - 2 - 4 - 7 • MPEG 1 & 2 : 3 types de Frames I,B,P. • MPEG 4 : Identifie les objets dans les séquences. • MPEG 7 : Inclus un aspect sémantique, Le « descripteur » : langage balisé (XML) • Indexation par identification de séquences et méta-données • Indexation son & vidéo synchronisés « navigation » vs « recherche » pour les médias continus (vidéo, son) Max CHEVALIER - chevalie@irit.fr
Librairies Digitales 1/3 • Une LD est : • un service, • une architecture, • un ensemble de ressources informatives, bases de données textuelles, sons, images… • un ensemble d’outils et fonctionnalités permettant de localiser, d’utiliser les ressources disponibles. • normalement centrée sur l’utilisateur • RI joue un rôle clé, mais… Chercher ne suffit pas ! Max CHEVALIER - chevalie@irit.fr
Librairies Digitales 2/3 • Bibliothèque classique : • trouver, identifier, sélectionner, obtenir les documents à partir d’informations. • Bibliothèque numérique: • Localiser, sélectionner parmi des sources pertinentes • Y retrouver des documents • Interpréter ce qui est retrouvé • Gérer les informations filtrées localement • Partager ces résultats avec les autres. Max CHEVALIER - chevalie@irit.fr
Librairies Digitales 3/3 • Le Web est-il une DL ? • NON • Web : • a un contenu incomplet • manque de standards et de contrôles de qualité • non catalogué • rappel trop élevé par rapport à la pertinence • pas d’organisation responsable • Mais il y a plusieurs LD sur le Web !! Max CHEVALIER - chevalie@irit.fr
Web 1/7 • Comment retrouver des documents sur le Web ? • Par navigation : • URL connue • Par lien présent dans une autre page Web • Service d’alerte (méthode PUSH) • Par recherche : • Moteur de recherche Web • 1 Page Web = 1 document Max CHEVALIER - chevalie@irit.fr
Web 2/7 Moteurs basés sur les requêtes Les index sont construits automatiquement. Automatique Listes classifées Les catalogues répertoriant les pages par thèmes sont construits manuellement Manuelle • Indexation sur le Web Max CHEVALIER - chevalie@irit.fr
Web 3/7 • Différences au sein de l’indexation • Particularités du Web • Liens hypertextes = relations entre les documents • classification • Avantage : [Botafogo93] proposer des classes de documents qui dépendent d’un contexte, d’un thème… à partir des liens qu’ils possèdent entre eux = Réduction de la quantité d’informations à stocker Max CHEVALIER - chevalie@irit.fr
Web 4/7 • Utilisation des liens Hypertextes • Hypertexte bien réalisé : • Baisse du risque de « perte » de l’utilisateur (hiérarchie) • Organisation plus rigoureuse de l’information (navigation) • Analyse de l’hypertexte [Botafogo93] • Plus le nombre entre 2 nœuds est grand, plus la relation entre les nœuds est importante • Permettant de : • détecter le nœud index de l’hypertexte (liens out) • détecter les nœuds références (liens in) • mesurer la compacité de l’hypertexte • mesurer la stratification (nbre de « couches ») Max CHEVALIER - chevalie@irit.fr
Web 5/7 • Utilisation dans la RI • Classification : • Par contenu • Par liens • => Utilisation mixte des 2 • Analyse Structurelle : • Identification de pages d’acceuil et pages références • indexation de la structure globale • Mesures : • Non spécifique au Web mais adéquates • qualité et complexité d’une portion du Web Max CHEVALIER - chevalie@irit.fr
Web 6/7 • Algorithmes existants • HITS (Hyperlink Induced Topic Search) • PageRank • Algo. de génération de liens auto. • [Salton96], [Allan97], [Agosti97], [Melluci99] • relation de similarité entre nœuds • détection de liens de différents types (révision, résumé, extension, équivalence, contraste, comparaison, tangence, agrégation) Max CHEVALIER - chevalie@irit.fr
Web 7/7 • Evaluation de la RI sur le Web • Pb : • Dynamique du Web • Hétérogénéité des pages et des requêtes • Hyperliens entre les pages • Base de test : tâche Web de TREC • performance de la RI sur le Web (1999) • Small Task - 2 Go (250.000 docs) • Large Task - 100 Go (18.5 Millions docs) Max CHEVALIER - chevalie@irit.fr