350 likes | 506 Views
Cours UE 105.c :. Collecte d’information informelle Enseignant : Sahbi SIDHOM. Plan du cours :. Séance n°1 : Communication électronique : théorie, pratique Forum et liste de discussions : théorie, pratique Séance n°2 : Blog : théorie, pratique Wiki : théorie, pratique Séance n°3 :
E N D
Cours UE 105.c : Collecte d’information informelle Enseignant :Sahbi SIDHOM
Plan du cours : • Séance n°1 : • Communication électronique : théorie, pratique • Forum et liste de discussions : théorie, pratique • Séance n°2 : • Blog : théorie, pratique • Wiki : théorie, pratique • Séance n°3 : • Outils de collecte : théorie, pratique • Annuaire, MRI, MMRI, AI-RI, AI-Veille : pratique • Séance n°4 : • Projets par groupe de travail : théorie, recherche, application • Évaluations
I. Outils de collecte : théorie, pratique ?
Classement des outils • un classement sur les outils de collecte comprend : • les outils de collecte, • les outils d'analyse, • les outils de diffusion, et • les outils intégrés.
Les outils de collecte : moteurs de recherche, outils de surveillance de sites Web • La collecte d'informations vise à rassembler des faits, des opinions, des études sur les thèmes définis préalablement. • Ces éléments sont collectés à partir de sources formelles ou de sources informelles: • Les sources formelles sont le plus souvent des sources électroniques. Il s'agit de l'Internet, de fils d'information, de bases de données professionnelles • Les sources informelles sont le plus souvent des sources humaines. Il peut s'agir, dans le cadre de la veille concurrentielle, de commerciaux opérant sur le terrain. Un premier classement et un stockage des informations brutes sont réalisés à ce niveau. • L'utilisation de logiciels permet de faciliter la collecte des informations. On peut donc y faire figurer tous les outils de veille tels que les moteurs de recherche, les outils de surveillance de sites, les crawlers, les annuaires, les agents intelligents (cf.p.9), etc.
Les outils d'analyse :outils d'analyse textuelle, cartographie et catégorisation de l'information • L'analyse et la synthèse de l’information sont des activités à haut niveau en terme de valeur ajoutée : • Un classement et un stockage des informations « raffinées » sont opérés à ce niveau. • Usuellement, c'est lors des activités d'analyse et de synthèse que sont produits les livrables de la veille. • Ces activités doivent permettre : • de valider les informations recueillies, • d'en extraire le contenu pertinent, • de l'intégrer dans une ou plusieurs synthèses, et éventuellement • de faire des propositions d'action. • Plutôt qu'une validation systématique des informations recueillies par un ou plusieurs experts, la tendance est maintenant à l'exploitation, par le responsable de veille, des informations recueillies : • Le développement des technologies d'analyse textuelle permet d'inclure dans cette catégorie les outils d'analyse textuelle et statistique, cartographie, catégorisation ou • tout logiciel qui peut aider à exploiter les informations collectées.
Les outils de diffusion :à partir de - profils créés, - édition de rapports, - mailings, etc. • La diffusion est la mise à disposition des informations, le plus souvent dans des livrables spécifiques, ainsi que les échanges et l'enrichissement qui en résultent. • Des propositions d'action sont souvent intégrées. Il est bien clair qu'avant cette activité : • une organisation spécifique de l'accès aux informations, ainsi que • des règles de confidentialité, doivent avoir été mises en place. • Dans cette catégorie, des logiciels dits push renvoient l'information ciblée en fonction du profil de l'utilisateur et les outils de type groupware. • Il est inconcevable de parler de démarche de veille sans parler de travail collaboratif : • Celui-ci repose généralement sur des outils de groupware qui offrent l'ensemble des fonctionnalités indispensables au travail de groupe, • outils de communication, avec des fonctions de G.E.D., moteur de workflow, etc.
Les outils intégrés : agents intelligents • Les outils dits intégrés concernent les outils effectuant de la collecte et de l'analyse. On parle souvent d’agent intelligent. • Le dictionnaire définit l'agent comme une « personne » chargée des affaires et des intérêts d'un individu, d'un groupe ou d'un pays, pour le compte desquels elle agit. L'agent est donc : • aux ordres de quelqu'un, et • il ne réfléchit pas. • Celui qui est dit intelligent a, quant à lui, les facultés de : • adaptation, • réflexion, et • perspicacité.
Par terminologie, parler d’ agent intelligent peut donc paraître paradoxal : Les logiciels dits agents intelligents doivent donc être appréhendés avec un certain recul : • s'ils sont une aide précieuse dans vos recherches sur la toile mondiale (web, Internet, etc.), • ils ne sont pas pour autant la solution. • Malgré cela, une certaine confiance peut néanmoins leur être accordée…
Parmi l'abondance des liens vous proposant des téléchargements de logiciels d'agents intelligents, nous avons réuni ici quelques liens qui vous permettront de trouver rapidement quelques bons assistants. • Les agents intelligents présentés ont tous été testés et utilisés par nos soins : • Aspirateurs de sites • Agents de recherche • Agents de veille • Mapping
Critères d’étude des outils : Il s'agit de critères qui indiquent : • des informations générales (société éditrice, prix, présence ou non d'une version d'essai, multilinguisme, etc.), et • des informations plus spécifiques (niveau de difficulté tant au niveau installation, qu'utilisation, la qualité de l'interface graphique, les formats d'imports acceptés, ergonomie, etc.) Liste des critères : • renseignements généraux sur la société éditrice et le logiciel : « famille » de l'outil, description rapide, pré-requis technique, prix, version d'essai en ligne, aide en ligne, support technique, etc. • évaluation de la facilité ou non de l'utilisation : paramétrage, format et structure des documents traités (import et export), etc. • gestion du multilinguisme : langues, couples de langues, traduction, etc. • fonctionnalités liées à la collecte (à partir d’une requête): crawl à partir d‘URLs, surveillance/alerte/mise en évidence des modifications, etc. • fonctionnalités liées aux analyses statistiques : occurrences, co-occurrences, etc. • fonctionnalités liées aux analyses linguistiques : analyse morpho-lexicale, analyse syntaxique, analyse sémantique, extraction terminologique, gestion de dictionnaires, recherche d'entités nommées, etc. • fonctionnalités liées à la classification/catégorisation. • représentation graphique de l'information : listes, tableaux, cartographie, courbes de tendance, diagramme de répartition, etc. • fonctionnalités liées à la diffusion : en partie ou en totalité du contenu
II. Annuaires ?
Travail à réaliser : • Définition(s) : (qui ?) • Théories • Pratiques • Fonctionnalités : (fait quoi ?) • Caractéristiques : (comment ?) • Catégorisation : (pourquoi ?)
Synthèse : Les annuaires de recherche • il s’agit de répertoires : • Catalogues, • Guides ou • Directories (Directroy est un terme en anglais, qui désigne bottin, annuaire, répertoire) des sites web classés par grandes catégories et ordonnées de manière hiérarchique • Ils sont construits « à la main », pour sélectionner les sites en fonction de leur : • Qualité, • Pertinence, • Fiabilité. • C’est au responsables de sites à demander le référencement. C’est ainsi que de nombreuses sociétés se sont spécialisées dans ce domaine qui demande : • Une connaissance approfondie, • Des politiques variables, • Gestion délicate : conflits des intérêts.
III. Moteurs de recherche ?
Travail à réaliser : • Définition(s) : (qui ?) • Théories • Pratiques • Fonctionnalités : (fait quoi ?) • Caractéristiques : (comment ?) • Catégorisation : (pourquoi ?)
Synthèse : Les moteurs de recherche • Ils sont des bases de données constituées automatiquement grâce à des programmes complexes ( algorithmes ) qui : • Scrutent à intervalles réguliers les serveurs déclarés (publics/accessibles) sur le réseau Internet • Indexent mot à mot les contenus localisés ayant des sources textuelles lisibles • Permettent ainsi des requêtes d’interrogation par mots-clés et des opérateurs (booléens : AND, OR NOT, troncatures, etc.). • Ils ne peuvent consulter et répertorier que la partie visible du Web. • Exemples : google, altavista, netscape, etc. • Lien utile : http://www.bib.umontreal.ca/infosphere/sciences_humaines/module5/cherwebmot.html#avan
IV. Méta-moteurs de recherche ?
Travail à réaliser : • Définition(s) : (qui ?) • Théories • Pratiques • Fonctionnalités : (fait quoi ?) • Caractéristiques : (comment ?) • Catégorisation : (pourquoi ?)
Synthèse : Les méta-moteurs de recherche • Ils permettent d’interroger en parallèle plusieurs outils ou moteurs de recherche • Les M-MR les plus récents suppriment les doublons et reclassent les documents selon des méthodes propres : • Fréquence de visites • Politique du MM ( privilégier les résultats d’un MR sur un autre) • Etc. • Ils sont utiles pour : • obtenir rapidement un maximum de résultats, • une vision globale d’une classe de documents ou • un panorama des documents référencés (disponibles) par les MR. • Exemples : AllTheWeb , Ariane6, etc. • Lien utile : http://www.bib.umontreal.ca/infosphere/sciences_humaines/module5/cherwebmeta.html
Liste : Moteurs de recherche et annuaires France • Altavista France • (moteur de recherche) • Abacho • (moteur de recherche) • Hotbot.com • (moteur de recherche) • Dmoz • (annuaire) • Free • (moteur de recherche) • Google • (moteur de recherche) • Lycos.com • (moteur de recherche) • Yahoo France • (moteur de recherche) • Voila Guide* • (annuaire) • Yahoo France • (annuaire) • Mirago • (moteur de recherche) • Altavista.com • (moteur de recherche) • Hotbot France • (moteur de recherche) • Aol France • (moteur de recherche) • Alltheweb • (moteur de recherche) • Google France • (moteur de recherche) • Lycos France • (moteur de recherche) • Mozbot.fr • (moteur de recherche) • Tiscali • (moteur de recherche) • Voila Moteur • (moteur de recherche) • Msn France • (moteur de recherche) • Indexa* • (annuaire spécialisé entreprises)
V. Agents Intelligents :
Travail à réaliser : À distinguer : • Agent intelligent pour la recherche d’information ? • Agent intelligent pour la veille ? À déterminer : • Définition(s) : (qui ?) • Théories • Pratiques • Fonctionnalités : (fait quoi ?) • Caractéristiques : (comment ?) • Catégorisation : (pourquoi ?)
Synthèse : Les agents intelligents • Composants logiciels capables à des degrés différents (comme les MR) à : • Fonctionner automatiquement de manière autonome, • Communiquer avec d’autres composants logiciels et d’échanger des informations avec l’homme, • Apprendre (grâce à des composants algorithmiques très évolués) pour être réactif avec son environnement informationnel et décisionnel. • Un agent intelligent pour la recherche d’information se conforme pour : • prendre des initiatives intelligentes : rapprocher l’information aux besoins de l’utilisateur • collaborer de manière précise avec l'utilisateur, d'autres applications ou les deux ensemble, • se déplacer sur tel ou tel site selon le besoin : relecture après mise à jour d’un contenu sur un site, • Intégrer des outils d'analyse linguistique, • Élaborer des cartographies dynamiques et interactives : exemple Kartoo, • Prendre en compte le facteur temps lors du traitement de l'information. • Un agent intelligent pour la veille se conforme pour : • Analyser la demande • Connaître les clients et leur demande ( à anteriori pour anticiper à posteriori ) • Gérer des profils clients • Personnaliser l'offre pour chaque client • Exemples : • Agents "on line" : Pricescan, Shopfind, … • Agents "off line" : Copernic, Explorer, … • Lien utile : http://www.decisionnel.net/agentintelligent/ai.htm
VI. Présentation de quelques « Agents Intelligents »
Aspirateurs de sites • eCatch http://www.ecatch.com • eCatch permet entre autres la saisie des formulaires hors ligne, la mise en valeur des nouveautés dans les pages, la recherche plein texte avancée, l'exportation, le téléchargement en différé des liens cliqués pendant la lecture hors ligne, etc. • L'interface de eCatch présente en arborescence les agents, les sites et leurs contenus téléchargés. • Licence : shareware • Prix : ~200 E. • Compatibilité : Windows, Linux
MemoWeb 4 http://www.goto.fr/ • Ce logiciel, muni d'une interface intuitive, permet même aux débutants d'accéder facilement à la technique de l'aspiration des sites. La mise à jour des sites transfère uniquement les pages ayant changé depuis la dernière capture. • Puissant et simple, c'est un excellent logiciel gratuit. • Licence : freeware • Prix : 0 • Compatibilité : Windows, Linux
Agents de recherche • BullsEye 2 http://www.intelliseek.com • Ce logiciel couvre plus de 800 moteurs de recherches et BDD répartis en 140 catégories. • Il comprend plus de 70 langues exprimées en langage naturel. • Licence : shareware • Prix : 0 • Compatibilité : Windows, Linux
Agents de veille • Webspector http://www.illumix.com • Il veille sur des sites ou des pages web automatiquement selon un calendrier déterminé et des mots-clés choisis. • Licence : shareware • Prix : 49 E. • Compatibilité : Windows, Linux
Copernic http://www.copernic.com/fr/ • Plusieurs versions de Copernic existent (Copernic 2000, Copernic 2000 Plus, Copernic Pro, Copernic Shopper...). • La veille s'en trouve facilitée et certaines versions sont gratuites. • Licence : démonstration • Prix : 0 • Compatibilité : Windows, Linux
Strategicfinder http://www.strategicfinder.com/ • Strategicfinder est un agent méta-moteur édité par Digimind. Cet outil permet de rechercher de l'information sur Internet de façon classique, mais surtout d'explorer le web de façon thématique grâce à ses plugins thématiques ( transports, journaux, pharmaceutique... ) • Plusieurs dizaines de plugins gratuits et payants sont disponibles sur le site. • Licence : Version gratuite et version co • Prix : 0 • Compatibilité : Windows, Linux
Mapping • des outils de recherche nous amenent à développer des compétences sur le référencement-positionnement : • Analyse • Soumission • Analyse à posteriori • Référencer son site consiste à l'inscrire dans les différents outils de recherche, Annuaires. Référencer son site ne suffit pas, Il faut le positionner sur des expressions clés en rapport avec le contenu du site et des attentes des Internautes. • Positionner son site devient indispensable pour être connu et retrouvé par les Internautes. Cela est d'autant plus difficile que les sites deviennent complexes, et bâtis sur des langages dits dynamiques : PHP, ASP, PERL, JAVA, et contenant des animations graphiques en FLASH notament. Positionner son site ne suffit pas ! Il faut veiller sur le postionnement du site, et le maintenir en intervenant lorsque cela devient nécéssaire.
Analyse : - Définition d'une stratégie de référencement / analyse concurrentielle- Préconisations techniques du futur site- Préparation "préréférencement" / optimisation des pages / création de pages annexes si besoin. Le référencement est ensuite effectué par des spécialistes des moteurs de recherche et du web, dans chaque langue du site. • Soumission :- Soumission manuelle aux annuaires majeurs- Soumission manuelle aux moteurs de recherche majeurs • Analyse « a posteriori » :- Suivi et analyse du trafic avec des outils propriétaires- Analyse du trafic avec des outils du marché- Recommandations post analyse . • Exemple d’outil :(package)Référencement 2000 ; http://www.referencement-2000.com/