580 likes | 819 Views
Filtrage de l’Information. Lynda AIT MEHEDINE, Abdejlil KHATTABI et Sanaa EL AOUMARI Jian-Yun Nie : Cours IFT6255 Université de Montréal. Plan de la présentation. Introduction TREC et le filtrage d’information Définition du filtrage d’information
E N D
Filtrage de l’Information Lynda AIT MEHEDINE, Abdejlil KHATTABI et Sanaa EL AOUMARI Jian-Yun Nie:CoursIFT6255 Université de Montréal
Plan de la présentation • Introduction • TREC et le filtrage d’information • Définition du filtrage d’information • Filtrage d'information et Recherche d'information • Comparaison entre recherche d’information et filtrage d’information • Caractéristiques d'un système de filtrage • Le filtrage par contenu • Le filtrage par collaboration • Les agents
Plan de la présentation - suite • Evaluation des systèmes de filtrage d’information • Les métriques de la recherche d’information • Précision et rappel : • Métriques TREC pour le filtrage d’information : • Notion d’utilité • Métrique orientée vers la précision • Concepts Avancés De Filtrage • Quelques systèmes de filtrage • Conclusion
Introduction • Avec la très grande masse d'informations devenue disponible sur l’Internet. Il est devenu primordial aujourd'hui de consacrer une partie considérable de notre temps à l'extraction de l'information pertinente • Au lieu de laisser l'utilisateur dépenser son temps à chercher l'information dont il a besoin, la tendance actuelle est de concevoir des mécanismes qui permettent de lui faciliter la tâche en lui faisant parvenir continuellement l'information qui l'intéresse. • Recherche et filtrage d'information visent à modéliser, concevoir et mettre en application des systèmes capables de traiter un flux d'informations au fur et à mesure de leur arrivée pour en sélectionner et de diffuser seulement les informations pertinentes
Introduction • le filtrage de l'information est un nom donné à une variété de processus dont le but est de faire parvenir, à partir de larges volumes d'informations générées dynamiquement, les informations aux personnes qui en ont besoin. • Les domaines d'application du filtrage de l'information sont assez variés, et d'une grande importance économique, parmi eux : mailing list, Usenet News, filtrage des e-mails, filtrage dans les webs. • Les conférences TREC ont joué un rôle important dans le développement du domaine de la recherche d’information automatisée.
TREC et le filtrage d’information • dans le domaine de la recherche d’information les principes directeurs de ces conférences sont les suivants : • Définir les principaux domaines et sous domaine de la Ri • Fournir des données de références normalisées, dans le but de comparer les performances de système de RI, grâce a des métriques communes • Faciliter l’échange entre équipe participantes, issues aussi bien de l industrie que du domaine public(universités, entités gouvernementales, laboratoires etc..)
TREC et le filtrage d’information • Le premier atelier sur le filtrage de l’information haute performance(High Performance Information Filtering) a vu le jour en 1991 il a été sponsorise par Bellcore et le Sig sur les systèmes d’information bureautique(office information System). • au cours de cet atelier environ quarante publications examineront le domaine du filtrage a partir de plusieurs perspectives différentes : • De la sélection de l’information • A la modélisation de l’utilisateur
TREC et le filtrage d’information • En passant par les domaines d’applications, les détails techniques et logiciels ainsi que des considérations sur la confidentialité et des études de cas. • Le filtrage d’information ne connut que des débuts très hésitants, ne se focalisant que sur un des aspects de l’activité :Le filtrage a partir du contenu. • D’autres types de filtrages ont été évoques au cours du développement du domaine, tel que le filtrage collaboratif, ou social, prenant en compte les avis des utilisateurs sur la qualité informative des documents consultes.
TREC et le filtrage d’information • Dans les premières édition de TREC, le filtrage d’information n’ était considère que comme une recherche exploratoire. • Le filtrage d’information proprement dit n'est apparu qu'a la quatrième édition de TREC.Cette édition est l’occasion de distinguer entre routage d’information et filtrage d’information.
Définition du filtrage d’information • Le filtrage est un processus qui consiste à extraire les informations pertinentes et de qualité à partir d’une imposante masse d’informations.
L'élément essentiel du filtrage est le modèle de l'utilisateur, qui permet de sélectionner quelles sont les informations à transmettre à l'utilisateur et de savoir comment le faire. Le filtrage de l'information se présente comme une aide à l'extraction de l'information pertinente: concevoir des mécanismes destinés à faire parvenir à l'utilisateur l'information qui l'intéresse directement. Définition du filtrage d’information
C’est aussi un processus visant à extraire au sein d'un important volume d'informations générées dynamiquement, les documents susceptibles de correspondre aux besoins et intérêts de l'utilisateur, après que celui-ci ait défini ses centres d'intérêt. Le filtrage intègre aussi les opérations d'exploitation et de présentation des résultats. Les informations, sont extraites de sources différentes et évoluent dans le temps. L'outil de filtrage permet ainsi de repérer et identifier exclusivement les documents relatifs aux centres d'intérêt indiqués par l'utilisateur. Définition du filtrage d’information
Filtrage d'information et recherche d'information • La distinction entre la recherche d'information et le filtrage d'information n'est souvent pas claire. • Un système de recherche d'information a pour fonction de guider l'utilisateur à retrouver les documents qui lui permettent de répondre à ses besoins • D'une part, l'utilisateur soumet une requête au système • D'autre part, les sources d'informations sont une collection de textes représentés sous forme de bases de données et souvent indexés en un ensemble de mots clés • Ces derniers sont comparés à la requête de l'utilisateur pour aboutir à un ensemble de documents répondant à sa requête.
Filtrage d'information et recherche d'information • La 2émefigure schématise un modèle de filtrage d'information. • Il débute avec des individus ou groupe d'individus qui ont des intérêts relativement stables à long terme : profils • La source d'informations provient des producteurs de textes (exemple : journaux) • Ces derniers doivent distribuer ces informations aux personnes intéressées • Cette opération est réalisée en comparant les textes aux profils des différents individus.
Comparaison entre les Processus de Recherche et de Filtrage d'Information • En comparant les 2 figures, nous constatons une analogie entre les processus de filtrage et de recherche d'information. • Les principales différences sont résumées comme suit :
Comparaison entre les Processus de Recherche et de Filtrage d'Information • La recherche d'information assure la collection et l'organisation des documents • Le filtrage de l'information assure la distribution des documents aux personnes qui en ont besoin
Comparaison entre les Processus de Recherche et de Filtrage d'Information • Un système de recherche d'information établit une sélection de documents à partir d'une base de données statique • Le filtrage est une sélection et/ou souvent une élimination d'information à partir d'une source d'information dynamique
Comparaison entre les Processus de Recherche et de Filtrage d'Information • Un système de recherche d'information est utilisé par une seule personne à un moment donné (une requête à la fois) • Par contre un système de filtrage est un processus itératif (multiples parcours) pouvant être utilisé par une ou plusieurs personnes avec des intérêts à long terme
Comparaison entre les Processus de Recherche et de Filtrage d'Information • Le filtrage de l'information est généralement appliqué à des flux arrivants de nouvelles données • Tandis que dans la recherche d'informationles modifications dans la base de données ne sont pas fréquentes et la recherche n'est pas limitée aux nouveaux documents
Comparaison entre les Processus de Recherche et de Filtrage d'Information • La recherche d'information implique le processus de collecte (Finding) de l'information dans la base de données. • Le filtrage de l'information entraîne le processus de déplacement (Removing) de l'information du flux de données
Comparaison entre les Processus de Recherche et de Filtrage d'Information • Contrairement aux requêtes, les profiles sont souvent des spécifications correctes des intérêts des utilisateurs • Ceci vient du fait qu'ils représentent généralement des intérêts à long terme pendant que les requêtes dans la recherche d'information reflètent des intérêts à court terme pouvant être satisfaits par la recherche.
Caractéristiques d'un système de filtrage • Les principales caractéristiques d'un système de filtrage sont les suivantes : • Il est destiné à des informations peu ou pas structurées contrairement aux bases de données qui utilisent des documents très structurés • A noter que La notion de structure ne concerne pas seulement le format que doit avoir le document, mais aussi son contenu • Il est aussi facile, par exemple de définir une base de donnée pour des documents complexes, tel que des articles de journaux, mais le contenu du texte, figures et tableaux de ce type de documents reste mal défini
Caractéristiques d'un système de filtrage • Il diffuse en général des informations textuelles,mais peut également gérer d'autres types d'information tel que image ou son. • A noter que ce genre d'information est très mal géré par les systèmes de recherche conventionnelle du fait de la complexité de la représentation de leur contenu.
Caractéristiques d'un système de filtrage • Le filtrage concerne un flux d'information en provenance d'une ou plusieurs sources extérieures (ex news) ou adressé directement à l'utilisateur (ex. email) • Le filtrage doit prendre en compte le profil de l'usager qui spécifie au système ses caractéristiques
Le filtrage par contenu • La plus ancienne approche • But : établir une corrélation entre les ressources que les usagers consultent • Fonctionnement : le système analyse le contenu des ressources, puis effectue des recommandations • Avantages : • Approprié pour du matériel textuel • Facilite l'entrée d’un nouvel item dans le système
Le filtrage par contenu • Désavantages : • Difficulté d'extraire le contenu ou les attributs de certains formats de fichiers • Peu apte à recommander des items dissemblables • Aucun aspect collaboratif dans cette approche
Le filtrage par collaboration • Approche plus récente • But : établir une corrélation entre les usagers (leurs profils) • Postulat : l'usager apprécie des items semblables à ceux que des usagers comparables apprécient aussi • Approchesubjective : basée sur des jugements de valeur
Le filtrage par collaboration • Individus = intermédiaires entre les sources d'information • Avantages : • Capacité de recommander des items dissemblables • Utilisation pour des formats variés de ressources • Capacité de représenter des concepts abstraits comme les goûts ou les intérêts
Le filtrage par collaboration • Désavantages : • L'ajout de nouveaux items est problématique: doit avoir été évalué avant d'être suggéré • Nécessite un nombre suffisant d'évaluations et d'usagers • Problème de dispersion des scores • Difficulté à gérer les profils atypiques
Les agents • Un agent est un système capable, dans une situation donnée, de prendre une décision et d'agir automatiquement sans intervention humaine. • Actuellement, on essaie d'intégrer ces agents dans le domaine du filtrage et de la recherche d'information. • Dans les prototypes existants, ces agents observent le comportement de l'usager et constituent ainsi une base de données sur l'usager à partir de laquelle ils pourront agir.
Les agents • Pour la gestion d'informations structurées, le principe est le suivant: • A partir d'une équation de recherche préalablement établie par l'usager, l'agent sélectionne les documents qui sont susceptibles de répondre à sa requête, les présente à l'usager avec des commentaires et des suggestions, en les classant par ordre de pertinence. Dans un premier temps, il observe le comportement de l'usager afin d'ajuster son équation, puis il décide de lui adresser ou non tel où tel document. • Cybion a annoncé en janvier 2001 la mise en ligne de son dernier site : "AgentLand", le premier portail sur les agents intelligents.
Evolution du filtrage d’information • Avec la croissance d’Internet et des autres réseaux d’informations, la recherche dans le domaine du filtrage automatique d’information s’est développée ces dernières années. • USENET News et courrier électronique sont les domaines les plus populaires de la recherche. • La croissance du World Wide Web a fait de lui un domaine intéressant qui a attiré la recherche scientifique • Et ceci même si le problème de la collection de l’information semble le rendre un domaine plus difficile pour mener une recherche fondamentale sur des techniques de filtrage d’information.
Evolution du filtrage d’information • Une des premières formes de filtrage de l'information électronique a été la DSI : Diffusion Sélective de l'Information • DSI consiste à envoyer à intervalle régulier correspondant en général aux mises à jour de la base de données, l'ensemble des références nouvelles répondant à une requête préalablement enregistrée • Bien que largement utilisée, la DSI n'est pas sans défaut. Elle peut être difficile à implémenter telle quelle sur les systèmes de messagerie, et ceci étant donné le grand volume d'information qui circule dans l'Internet et la diversité des sources
Evolution du filtrage d’information • Toutes les recherches actuelles sont orientées vers des systèmes automatiques dits "intelligents". • Pour des raisons pratiques, en particulier un minimum de structuration des documents, les premiers travaux concernaient surtout les News. Les recherches actuelles sont plutôt orientées vers les services WWW. • Un autre domaine qui a attiré l’intérêt de la recherche c’est la conférence annuelle de récupération des textes TREC (Text Retreival Conference) dans lequel une collection standard des textes est utilisée et une méthodologie d’évaluation soigneusement contrôlée est imposée.
Evolution du filtrage d’information • Dans TREC, la tâche de filtrage de l’information est notifiée en tant que cheminement « routing », ajoutant une confusion de la terminologie dans ce domaine • En effet, TREC a récemment adopté une voie de filtrage « feltering » qui suit une méthodologie d’évaluation différente, mais reste conforme à la définition du filtrage. • Les systèmes commerciaux qui filtrent des articles d’Internet et d’autres sources d’informations deviennent aussi disponibles. Des techniques de filtrages seront probablement appliquées dans d’autres domaines tels que les images, son et vidéo
Evaluation des systèmes de filtrage d’information Nous allons présenter les métriques utilisées en Ri et Fi dans le cadre de TREC pour l’évaluation des systèmes: • Les métriques de Recherche d’information • Les métriques de filtrage d’information
Evaluation des systèmes de filtrage d’information • Les métriques de la recherche d’information: La majorité des métriques utilisée en RI, supposent la constitution d’un ensemble de réponses de références, a comparer avec les réponses des systèmes évalues
Evaluation des systèmes de filtrage d’information Les métriques Précision et Rappel se définissent comme suit : • Précision= # documents pertinents retrouves/Nbre documents retrouvés. • Rappel=# documents pertinents retrouves/Nbre documents pertinents dans la base • Le taux de Rappel mesure la capacité des systèmes évalués a couvrir le problème, alors que le taux de précision mesure la qualité des réponses fournies
Evaluation des systèmes de filtrage d’information Métriques TREC pour le filtrage d’information : • Les métriques TREC s’inspirent des métriques que l’on vient de présenter c’est a dire celle des systèmes de recherche d’information. • Notion d’utilité (TREC-3): Cette notion introduite au cours de TREC marquera les vrais débuts du filtrage d’information
Evaluation des systèmes de filtrage d’information • Pour toute expérience Ri, évaluer la capacité des systèmes de filtrage reviens a évaluer la formule suivante qui sert a trier un ensemble de documents en deux catégories A et B : • Ui=Uai*Ai+Ubi*Bi. • Ai =nombre de documents pertinents trouvés par le système. • Bi= nombre de documents non pertinents. • Les constantes Uai et Ubi correspondent a la valeur d’utilité donnée par un utilisateur .
Evaluation des systèmes de filtrage d’information • TREC–4 a fixé trois valeurs pour ces constantes, correspondants a trois scénarios différents : • Un scénario ou on favorise la qualité des réponses(un poids maximal sur la précision). • Un scénario dit équilibré ou les poids sur les documents de type A et B sont égaux. • Un scénario ou c’est la quantité de réponse qui est recherchée.
Evaluation des systèmes de filtrage d’information • Propriétés de cette métrique : • La mesure d’utilité n’est pas normalisée. • La comparaison de l’efficacité d’un même système sur plusieurs requêtes différentes n’est pas facile, seule la comparaison entre systèmes pour une même expérience est possible.
Evaluation des systèmes de filtrage d’information • D’autres métriques pour le filtrage d ’information ont vu le jour tel que : ASP=Précision*Rappel. Les deux métriques utilité et ASP sont utilisées conjointement afin de fournir des indicateurs de performance pour chaque système.
Evaluation des systèmes de filtrage d’information • Métrique orientée vers la précision : • Ces métriques ont vu le jour au niveau de la 9eme édition de TREC. • T9P=Nombre de documents pertinents sélectionnés/Max(Cible, Nombre de documents sélectionnes)
Evaluation des systèmes de filtrage d’information • Avec une cible fixe a 50 pour TREC-9 • Le principe de cette mesure repose sur l’idée de cible ou but a atteindre( c’est a dire un effectif de 50)pour chaque système en terme de nombres de documents pertinents, une pénalité est attribuée dans les cas ou la cible n’est pas atteinte.
Concepts Avancés De Filtrage • La première étape dans la création d'un système de filtrage est de déterminer et représenter les intérêts d'un lecteur • demander à l'utilisateur une liste de mots clés qu'il jugent intéressant. • une pondération pour chaque mots qui détermine le niveau d 'intérêt associer avec les mots • D'autres méthodes tentent d'observer les articles qu'un utilisateur décide de lire, d'analyser leur contenu.
Concepts Avancés De Filtration • Toutes ses informations(mots clés et poids….) seront stockées dans un profile utilisateur. • Des études ont montrées qu'on peut aboutir à de meilleurs résultats en combinant toute ses méthodes.
Quelques systèmes de filtrage • POESIA est un projet de logiciel de filtrage libre • Le marché principal de POESIA est composé des institutions d'enseignement, telles que les écoles et les bibliothèques. Chaque système POESIA fonctionne sur un PC Linux séparant le réseau de l'école de l'Internet mais mettant en commun les données de filtrage. • PRINCIPest un système multilingue pour détecter les documents racistes sur Internet.