860 likes | 1.29k Views
Internet et ses services. La recherche d’information. TRICHET Francky francky.trichet@univ-nantes.fr. Une référence !. Le site portail d’Aide aux Etudiants à la Recherche Scientifique AERIS http://users.11vm-serv.net/aeris Un excellent cours, une bonne liste d’outils et des exercices.
E N D
Internet et ses services La recherche d’information TRICHET Francky francky.trichet@univ-nantes.fr
Une référence ! Le site portail d’Aide aux Etudiants à la Recherche Scientifique AERIS http://users.11vm-serv.net/aeris Un excellent cours, une bonne liste d’outils et des exercices.
La Recherche sur Internet • La recherche d'informations sur Internet demande deux compétences : • d'abord déterminer le bon outil en fonction de l'information demandée, • ensuite utiliser correctement cet outil. • Différentes méthodes de recherche d’information : • par types de services (News, Listes, Actualités) • par consultation d’annuaires généralistes ou thématiques • par utilisation de moteurs de recherche • par utilisation de méta-moteurs de recherche
Outils présentés • Annuaires et moteurs (généralistes et thématiques) • Méta-moteurs (en ligne et hors ligne) • Outils TAO (Traduction Assistée par Ordinateurs) • Traducteurs en ligne, dictionnaires, encyclopédies • Points particuliers • Recherche Images/Vidéos/Sons et le Peer2Peer • Recherche de logiciels (Freeware/Shareware) • Recherche d’itinéraires • Recherche de personnes et d’organisations • Les aspirateurs de sites • …
Moteurs Versus Annuaires • Annuaire : un catalogue de sites organisés par thèmes • Inscription nécessaire : les Webmasters doivent montrer « patte blanche » • Exemples : Yahoo, Nomade, etc. • Moteur : un système d ’indexation automatique des sites Web • Il n ’y a pas d ’inscription : le référencement est ainsi automatique ! • Exemples : Google, Lycos, etc.
Les moteurs de recherche • Principes : Les moteurs de recherche sont des bases de données constituées automatiquement grâce à des logiciels robots qui scrutent à intervalles réguliers les serveurs (Web, FTP ou autres selon le produit) déclarés sur Internet. Ils indexent mot à mot les documents localisés permettant ainsi des interrogations par sujet. Selon le moteur de recherche utilisé, l'indexation porte sur : • le titre, • l'entête des documents ou quelques lignes, • les documents complets.
Les composants d ’un moteur • L’aspirateur: parcours le web en suivant les liens hypertextes (algorithme de sélection des pages) • L’indexeur: analyse les pages reçues par l ’aspirateur pour mettre à jour une base de données (mots-clés => pages) • Le guichetier : réponds aux requêtes formulées par les utilisateurs • un aspirateur scrute entre 30 et 50 pages par seconde ; avec 1 milliard de pages, il faut 115 jours pour couvrir tout le web !!!
Problèmes des moteurs (1) • L ’aspirateur prend uniquement en compte le texte et pas la vidéo, le son et les images. • Problèmes des pages isolées • pages qui citent et qui ne sont pas citées (sources) • pas qui ne citent pas mais qui sont citées (cibles) • pas qui ne citent pas et qui ne sont pas citées (déconnectées) • le cœur des pages interconnectées est évalué à 20 % du web www.wwwmetrics.com (les métriques du web)
Problèmes des moteurs (2) • L ’indexation est uniquement statistique et non sémantique/linguistique • l ’expression « couler une bielle » ne sera pas rattachée à un problème de panne de voiture • la proximité spatiale pour les images n’est pas nécessairement efficace (ex avec « google find image » sur mammifère) • Les modules de l ’indexeur • le gardien qui filtre les pages pour y découvrir d ’éventuelles expressions inopportunes (racisme, porno, etc.) • le module de calcul des mots-clés : attribution d ’un poids (en fonction de l ’importance du mot dans la page) pour chaque mot-clé puis mise à jour de la base (mot->pages)
Les arnaques des Webmasters • Le Spam indexing : ajouter des mots supplémentaires dans les pages afin de forcer l ’indexeur à le considérer comme important • exploitation de la faiblesse statistique des indexeurs ! • ces mots sont invisibles pour l ’utilisateur final car ils possèdent la même couleur que le fond de la page (écriture vert sur vert = vert) • Exemple de « Google Bombing » : miserable failure (pauvre type) converge George Bush !!
Les arnaques des Webmasters • Les pages alias(duplication de la même page avec mise en valeur de mots-clés différents),satellites et fantômes(lien hypertexte automatique vers le site visé)
Les meilleurs moteurs (source Médiamétrie-eStat) • Google (http://www.google.com) • est fondé sur une technologie PageRank • plus une page est citée, plus est elle classée en priorité • plus une page, proposée comme résultat à une requête, est empruntée, plus elle est classée en priorité pour les requêtes suivantes • mémorisation des choix des utilisateurs précédents • Yahoo, Voilà, Altavista • AllTheWeb, reacteur.com, a9.com, teoma.com, singingfish.com
Les meilleurs moteurs Les services de Google en détails http://www.linternaute.com/internetpratique/google/ Google Fight : un usage détourné et rigolo de Google http://www.googlefight.com A la recherche de vidéos : http://video.google.com/
Recherche de fichiers sur sites FTP • File Mine (http://www.filemine.com/) • On donne un terme et on précise le système d'exploitation ou choisit dans une catégorie. Chaque logiciel a reçu une appréciation : Nouveau, Bijou ... • Shareware.com(http://shareware.com/) • Dans une base de plus de 250 000 fichiers, ce service propose : un mode de recherche simple (quick search), un mode avancé (power search). Après avoir indiqué le système d'exploitation concerné, on donne quelques termes combinés par Et et SAUF si nécessaire. On peut limiter par date. La recherche se fait dans le texte de description qui accompagne tout logiciel et dans le nom du produit.
Recherche d’adresses électroniques • Voilà (http://www.pagesjaunes.fr / http://www.pagesblanches.fr) • WhoWhere (http://www.whowhere.com) • InfoSpace (http://www.infospace.com/) • Ce service propose différentes recherches pour retrouver adresses et numéros de téléphone classées par catégories : business, sociétés et sites Web dans le monde, personnalités gouvernementales et aussi les amis.
Recherche de coordonnées d’entreprises • Un méta-annuaire d’entreprises : http://www.annuaire-entreprise.com/ • Des annuaires • http://www.kompass.fr/ • http://www.pagespro.com • http://www.bottin.fr/ • http://www.abc-d.fr/ • http://www.europages.com • Un annuaire des entreprises « internet » : http://societe.journaldunet.com
Recherche de coordonnées d’entreprises • Quelques annuaires web du Grand Ouest • http://www.portail44.org • http://www.nantes.maville.com/annuaireweb/annuaireweb.asp • http://cyberbretagne.com • http://www.francesurf.net/default.asp?fsville=8 • http://www.transcommerce.com • Le portail économique de la région • http://www.paysdelaloire.cci.fr/
La recherche de Listes et News • Excellent annuaire des listes de diffusion francophones (www.cru.fr) avec outils de recherche • Autre pointeur : • http://www.francopholistes.com • Reference.com (http://www.reference.com/) • Service complet facilitant l'identification et l'interrogation de plus de 15 000 newsgroups, 100 000 listes de discussion et 25 000 forums web. Les forums web sont une nouvelle façon de collaborer en réseau. Pour l'interrogation, on peut choisir entre un formulaire simple et une recherche avancée. Exemple de recherche : http://discussion.lycos.com/ Tester avec LEA nantes
La recherche dans l’actualité Presse • Google Actualités • Version française lancée en juillet 2003, fournit des liens vers des articles en français ainsi que des photos provenant de sources d’informations du monde entier et notamment de France, de pays francophones comme la Belgique, le Canada, la Suisse et l’Afrique. • Les sources d'informations utilisées sont issues de la presse écrite (nationale et régionale), presse web, TV et radio. • Libération - Le Monde - L'Humanité- Le Parisien -Le Figaro - Le Télégramme de Brest - Les DNA - La Voix du Nord - Ouest France - Le Nouvel Obs - L'Express - TV5 - France 2 - DH Net - Radio France... http://news.google.fr/
La recherche dans l’actualité Presse • DeepIndex News • Ce moteur français propose depuis novembre 2002 un moteur de recherche d'actualités. Il balaie 100 000 URL quotidiennement (chaque heure pour certains sites) pour rapporter environ 200 000 articles de la presse francophone. Intéressant car pour l'instant, l'essentiel des moteurs de recherches de news privilégiaient les actualités anglophones. DeepIndex News recherche en effet parmi les dépêches de la presse française, belge, suisse et canadienne. • Liste de sites de presse indexés (en constante évolution) http://www.news.deepindex.com/
La recherche dans l’actualité Presse • Les portails d’informations multi-domaines • http://www.lesinfos.com • http://actu.voila.fr/ … reprends les dernières dépêches AFP • http://www.afp.fr/ • Annuaire de la presse internationale • http://www.allnewspapers.com/
Les moteurs de recherche géographiques • Principes : L'interface présente une liste ou une carte sur laquelle il faut cliquer la zone géographique désirée. La recherche se fait alors de proche en proche, sur des cartes ou des listes de plus en plus fines, jusqu'à arriver à une liste de services présents dans une zone géographique. Ces moteurs sont utiles si vous cherchez un serveur dans un pays qui n'a pas encore trop de de serveurs Web (sinon cela devient vite lassant). Exemples • Virtual Tourist - http://www.vtourist.com • http://www.dmo.info/
Les annuaires thématiques • YAHOO - http://www.yahoo.fr • Les thèmes généraux proposés sont : Arts, Commerce et Economie, Ordinateurs et Internet, Education, Loisirs, Politique, Santé, Actualité, Sports et Jeux, Bibliothèques et Librairies, Géographie, Science, Sciences Sociales, Société et Culture. C'est l'endroit idéal pour entreprendre une recherche « sans savoir vraiment ce que l'on recherche » : la ballade.
Les moteurs de recherche par mots-clés • Principes : (1) saisie d ’un ensemble de mots clés caractéristiques du centre d ’intérêt visé ; (2) lancement de la requête ; (3) analyse des résultats fournis par le moteur utilisé. • Quelques moteurs • AltaVista(http://www.altavista.com) • Lycos (http://www.fr.lycos.de/) • Google (http://www.google.com) • Yahoo (http://www.yahoo.fr), qui est aussi un annuaire !
Quelques conseils (1) • Soyez précis ! Utilisez des mots précis qui décrivent l'objet de votre recherche, plutôt que des catégories ou des termes génériques. Si vous êtes intéressé par les Chihuahuas, vous devriez effectuer une recherche sur ce mot plutôt que sur le mot Chien. • Guillemets : Dans certains cas, il est possible d'ajouter des caractères à vos mots ou expressions afin de définir avec précision l'objet de votre recherche. Ainsi, le fait de placer plusieurs mots entre guillemets indique au moteur de recherche de ne répertorier que les sites qui contiennent ces mots dans l'ordre où ils sont été saisis.
Quelques conseils (2) • Signes + et - : Si vous faites précéder un mot du signe plus (+), vous indiquez que ce mot ou groupe de mots doit apparaître dans les résultats de la recherche (Hôtels +San +Francisco, par exemple). De même, le signe moins (-) indique que le mot ou groupe de mots devra être exclu des résultats de la recherche (Voitures -Ford). • Opérateurs booléens : Les opérateurs booléens sont AND, OR, AND NOT et les parenthèses. Pour fonctionner correctement, ces opérateurs doivent apparaître en MAJUSCULES. De plus, ils doivent être précédés et suivis d'un caractère d'espacement. • AND : indique que les documents recherchés doivent contenir tous les mots reliés par l'opérateur AND. Exemple : chien AND Chihuahua AND élevage. • OR : indique que les documents recherchés doivent contenir au moins un des mots reliés par l'opérateur OR. Exemple : chien OR chihuahua.
Quelques conseils (3) • Parenthèses : Les parenthèses sont utilisées pour grouper des portions de requêtes booléennes, ce qui permet d'effectuer des recherches plus complexes. Ainsi, pour rechercher des documents contenant le mot fruit et soit le mot banane, soit le mot pomme, entrez fruit AND (banane OR pomme). • Recherche sur le titre : Cette fonctionnalité vous permet de limiter votre recherche au titre des documents Web. Ainsi, si vous entrez title:Mars ou t:Mars, le moteur de recherche ne récupérera que les documents dont le titre contient le mot Mars. • Autres critères (date, langue, type de documents, etc.) : consultez l’espace « Recherche avancée » des moteurs
Exemple de requêtes Requête Résultats
Interprétation de requêtes Exemple de requêtes (Google) • berger allemand : 134.000 pages • berger ET allemand (équivalent à +Berger +allemand) • berger OR allemand : 4.500.000 • « berger allemand » : 63.000 pages • les deux et dans cet ordre • à utiliser pour vérifier la correction orthographique • Ex : « l'homme s'émouvoit » ou « l’homme s’émeut »
Les méta-moteurs (1) • Principes : Les méta-moteurs interrogent en une fois différents outils de recherche pour fournir la réponse la plus exhaustive à une question : vers une sous-traitance de la requête ! • Avantages : • Recherche plus exhaustive qu’avec un seul outil • Analyse des résultats plus fine (suppression des doublons) • Inconvénients : • On ne bénéficie pas des particularités de chaque outil • Temps de recherche souvent plus long
Les méta-moteurs (2) • Deux types de Méta-Moteurs (MM) : • MM disponibles uniquement à partir d'un serveur (MM en ligne) : SavvySearch, MetaCrawler, etc. • http://www.akooe.com/, http://www.800go.com • MM livrés comme logiciel client à installer sur son poste de travail : Copernic, BullsEye, Sherlock(pour Mac OS 8,5), etc. Les Méta-Moteurs en ligne présentent un intérêt limité : dégrossir une question, identifier un outil, etc. Les Méta-Moteurs installés sur son poste de travail permettent eux d'envisager un travail de veille avec la gestion de profils et l'établissement de calendriers …vers les agents d’intelligence économique
Un nouveau Méta-Moteur : eo.st • Un nouveau méta-moteur (en ligne) de recherche http://www.eo.st • Un nouveau moteur (souhaitant détrôner Google) • http://www.accoona.com/ • Un annuaire de méta-moteurs : • http://www.enfin.com/search.php?lang=fr&mot=metamoteur
Les autres outils de recherche • Les moteurs sur sites(base de données online) • le moteur de la Bibliothèque Nationale : www.bnf.fr • la bibliothèque municipale de Nantes : www.bm.nantes.fr • www.imdb.com pour le cinéma • Les moteurs spécialisés dans un domaine donné(indexation de plusieurs sites relevant d’un même domaine) • www.usgovsearch.com : recherche de documents gouvernementaux américain • Les annuaires spécialisés • les sites juridiques : www.droit.org • radios, TV et WebCams on the web : www.comfm.fr
Et les nouveaux types de moteurs • Vers une nouvelle génération de moteur de recherche • Aide à la visualisation des résultats de recherche par cartographie • Utilisation des propriétés des réseaux sémantiques • Un premier pas vers le Web Sémantique www.kartoo.com
Des pistes à suivre… • Pour en savoir plus sur les outils de recherche • http://www.enfin.fr : un méta-annuaire des outils de recherche (annuaire, moteur généralistes, moteurs thématique, méta-moteur, etc.) • http://c.asselin.free.fr/ : Excellent site dédié à la veille économique – Mise à jour régulière des nouveautés proposés par les outils de recherche – Un guide des bibliothèques en ligne, des outils de traduction • http://www.abondance.com/ - Excellent site dédié à la veille sur les outils de recherche. Visitez également les partenaires du réseau abondance : http://www.reseau-abondance.com
Recherche d’outils TAO Outils d’Aide à la Traduction • Traducteurs en ligne (texte direct ou URL) • Systran propose un outil de traduction en ligne avec plus de 36 paires de langues ! LA REFERENCE. • http://www.systransoft.com • L’outil de traduction des moteurs de recherche • Exemple d’Altavista : http://babelfish.altavista.com/ • Exemple de Voila : http://tr.voila.fr/
Recherche d’outils TAO Outils d’Aide à la Traduction • Traducteurs en ligne (texte direct ou URL) • Solution Gist-in-time • Un Gist est une traduction générée par ordinateur. Le Gisting a pour but de résumer instantanément des textes électroniques, rédigés dans une langue étrangère au lecteur, et ce, vers sa langue préférée. • http://www.teletranslator.com:8100/cgi-bin/transint.fr.pl?AlisTargetHost=localhost • Solution Reverso (http://www.reverso.net/textonly/default.asp) • Solution FreeTranslation (http://www.reverso.net/textonly/default.asp) • Solution WorldLingo (http://www.worldlingo.com/)
Recherche d’outils TAO Outils d’Aide à la Traduction • Traducteurs en ligne (texte direct ou URL) • Tester simultanément plusieurs outils de traductions en ligne. • http://www.faganfinder.com/translate/ • Un portail très complet et mis à jour régulièrement. • http://c.asselin.free.fr/french/traduction.htm#online • Le site officiel de la Direction générale de la Traduction de la Commission européenne. • http://europa.eu.int/comm/translation/index_fr.htm
Recherche d’outils TAO Outils d’Aide à la Traduction • Traducteurs en ligne (texte direct ou URL) • Traduction Anglais/français de ¾ phrases réalisées par des professionnels : • http://www.traduinoo.com/ • Un bon dossier sur les traducteurs en ligne • http://www.lesannuaires.com/traduction.html
Recherche d’outils TAO Outils d’Aide à la Traduction • Traducteurs à installer (et souvent payants) • Trados est le plus connu !!! http://www.trados.com/ • Mine d’autres logiciels (gratuits) : http://telecharger.01net.com/windows/
Recherche d’outils TAO Dictionnaires en ligne • Laréférence toutes langues confondues : YourDictionary • http://www.yourdictionary.com/languages.html • Propose des dictionnaires en ligne et des glossaires. Cela va des langues nationales les plus courantes aux langues régionales et dialectes (galicien, créole, breton, basque...). • Lexicool : un annuaire et de dictionnaires et glossaires bilingues. Dictionnaires généraux mais aussi thématiques : alimentation, aéronautique, musique, construction, électronique, informatique, etc. Vous pouvez ainsi trouver un dictionnaire français/anglais spécialisé dans le vocabulaire des vins. • http://www.lexicool.com/
Recherche d’outils TAO Dictionnaires en ligne • ForeignWord : plus de 260 dictionnaires de langues en ligne (plus de 70 langues sources et 74 langues cibles) • http://www.foreignword.com/fr/Tools/dictsrch.asp?p=files/f_source.htm • Travlang propose de très nombreux dictionnaires classiques en ligne également des paires de langues plus rares comme allemand-portugais, italien-suédois, tchèque-anglais • http://translate.travlang.com/
Recherche d’outils TAO Dictionnaires en ligne • Le grand dictionnaire terminologique donne accès à près de 3 millions de termes français et anglais du vocabulaire industriel, scientifique et commercial, dans 200 domaines d’activité. • http://www.granddictionnaire.com/ • Autre dictionnaire Français/Anglais • http://sun-recomgen.univ-rennes1.fr/FR-Eng.html
Recherche d’outils TAO Dictionnaires/glossaires à télécharger • Babylon : Des centaines de dictionnaires bilingues couvrant de très nombreuses langues (arabe, bosniaque, estonien, hébreu, kurde, tibétain...) et glossaires thématiques ou encyclopédiques. • http://www.babylon.com/gloss/glossaries.html • FreeLang : Plus de 135 dictionnaires bilingues à télécharger : français/basque, tamoul, corse, danois, espagnol, anglais, danois, hindi, hongrois, iranien, ourdou.... • http://www.freelang.com/dictionnaire/index.html • Xanadou • http://www.foreignword.biz/fr/software/xanadu/
Recherche d’outils TAO Encyclopédies en ligne Wikipedia : l’encyclopédie libre ! • http://encyclo.voila.fr/ (Voila) • http://www.webencyclo.com (Hachette) • http://www.encyclopedie-larousse.fr/ (Larousse) • Un exemple d’encyclopédie thématique sur le fromage • http://www.francefromage.com/m3_encyclopedie.asp
Recherche Images/Vidéos • http://www.recherche.aol.fr (Rubrique Image / Vidéo) • http://www.alltheweb.com (Rubrique Image / Vidéo)… idem avec google, yahoo... • http://www.picsearch.com/ • Des banques d’images • http://www.photo.rmn.fr/fr/f_recherche.html • http://gallica.bnf.fr/
Le « Peer to Peer » (P2P) • Technique permettant d’échanger librement des ressources (sons, vidéos, etc.) • Popularisation suite à la mort de Napster survenue suite aux attaques des majors du disque défendant le droit à la propriété sur les œuvres • Un retour à la philosophie initiale d’Internet • Pas de centralisation des ressources mais une simple redirection d’adresses de ressources • Exemples de logiciels gratuits dédiés au P2P • WinMX : http://www.winmx.com • Kazza : http://www.kazaa.com • Le Peer2Peer et le droit • Des dossiers à consulter sur : http://www.linternaute.com
Recherche de MP3/DivX • Les logiciels de partage de fichiers (peer-to-peer) • Ces modules à télécharger permettent d'échanger des fichiers MP3, DivX ou autres avec tous les internautes connectés au même moment avec le même logiciel (P2P : peer-to-peer = poste à poste, d'égal à égal). • L'intérêt est donc d'utiliser un logiciel de "file sharing" populaire fédérant une importante communauté d'utilisateurs rendant ainsi le volume de fichiers à partager plus important et les chances de trouver le MP3 rêvé plus grandes. Napster est mort, Audiogalaxy est moribond, mais l'héritage perdure....pour l'instant. • Kazaa, eDonkey2000, iMesh, Winmx, Gnutella