870 likes | 1.01k Views
Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT …. Patrick Gay - GIBIPO & Patrick Johner - CRDP Formation sur les recherches documentaires et bibliographiques pour les AID de 2 ème année Lausanne les vendredis 11 avril et 9 mai 2003. Comportement standard.
E N D
Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT … Patrick Gay - GIBIPO & Patrick Johner - CRDP Formation sur les recherches documentaires et bibliographiques pour les AID de 2ème année Lausanne les vendredis 11 avril et 9 mai 2003
Comportement standard 80% des internautes se précipitent sur un moteur de recherche et tapent un ou deux mots-clefs séparés par un espace … Et si nous faisions un petit sondage dans la salle. Qui utilise Google ou Altavista ainsi ? Pas de panique, il existe d ’autres moyens plus performants, nous allons les découvrir. Le premier , éviter les fautes d ’orthographe ! Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Introduction Syntaxe R-doc Outils R-Bib Conclusion page 4 page 13 page 23 page 34 page 67 page 86 Au programme Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Intro - historique • Années 70 : naissance de l ’Internet • Réseau ARPANET • VERONICA (recherches titres, occurrences des termes, répertoires) • WAIS (indexation en texte intégral) • ARCHIE (recherches sur serveurs FTP) • Années 90 : avènement du WEB au CERN • Outils spécialisés comme Mosaïc en 1994 Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Intro - raisons du succès • Protocole TCP/IP • Langage commun à tous les types de machines et de système d’exploitation • Interconnexion des tous les réseaux • Dialogue entre toutes les machines • Administration centrale minimale • Effort coopératif, suffixes de domaine, les adresses des machines (IP), équivalent en clair. • Langage HTML pour les pages WEB Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Intro - services disponibles • Sites WEB • http://wwwedu.ge.ch/dip/biblioweb • Messagerie électronique • patrick.johner@edu.ge.ch • Listes de diffusion & forums de discussion • swiss-lib@lists.switch.ch • Accès à des banques de données • Telnet • Echanges de données • FTP Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Intro - critique de l’information • Hétérogénéité : contenu et le codage • Instabilité • Fragmentation • Renouvellement continuel • Non structuré • Multilinguisme • Publique / privé / commercial Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Intro - les six questions de base • Qui est la source ? • Quels résultats obtenons-nous ? • Comment est présentée l ’information ? • Quand le site a été crée ? • Où sommes-nous ? • Pourquoi diffuse-t-on cette information ? Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Intro - évaluer un site • Fiabilité et qualité de l ’information • Trier l ’information • Evaluer l ’information et la source • Exactitude, exhaustivité • Auditoire • Vraisemblance, impartialité, cohérence • Vérifier l ’information Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Intro - déchiffrer les URL • Http:// protocole • www. Web • Geneve. Nom • Ch Extension • http://www.geneve.ch • URL (Uniform Ressource Locator) Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Quelques chiffres • 82 % des recherches par mots-clefs • 17 % navigation dans rubriques • 300 millions d ’internautes dans le monde • Plus de 10 millions en France • On parle de 500 milliards de pages … • 7,1 millions de sites Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Petite récréation elgooG Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Syntaxe - opérateurs par défaut ? • Tapons par exemple : réchauffement planète • Selon l ’opérateur par défaut nous aurons des documents concernant : • le réchauffement de la planète avec « et » • soit le réchauffement du cassoulet de la veille mais aussi sur la planète Mars avec « ou ». Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Syntaxe - opérateur « ou » Opérateur qui permet « d ’ouvrir » une recherche, par exemple : bibliothèque ou library chien ou chiens Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Syntaxe - opérateur « sauf » • Cet opérateur permet de supprimer un concept dans une recherche, par exemple cancer sauf horoscope Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Nous pouvons avoir : capi* * taine ca * ne capitaine capitale capital mitaine capitaine cabine capitaine carabine Syntaxe - troncature Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Syntaxe - majuscules, minuscules Sur Altavista nous pouvons tester : • ibm ou IBM • on aura alors ibm ou IBM • Ibm • on aura alors pas ibm ou IBM on peut aussi tester avec Peugeot Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Nous avons : Google.com Google .fr Google.ch Mais certains outils ne donnent pas les mêmes résultats avec : library ou bibliothèque Nous avons aussi le filtre linguistique. 55 % en anglais 7 % en russe 6% en allemand 5% en chinois 5 % en japonais 3 % en français 3% en espagnol Syntaxe - gestion des langues Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Pour certains outils de recherche sur le WEB les accents ont une importance. Jérome Jerome Idem pour l ’ordre des termes, on a pas toujours le même résultat. +Paris + Dakar +Dakar +Paris Syntaxe - accents et ordre Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Syntaxe - expressions Nous pouvons formuler de trois façons: • New York • nous aurons soit New Age • soit la ville d ’York • +New +York • nous aurons le New Age dans la ville d ’York • « New York » • nous aurons enfin New York Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Météo Sexe ANPE Google Yahoo Lycos Caramail Tennis SNCF Annuaire Pages jaunes Recherche MP3 Harry Potter FNAC Voilà Immobilier Musique Emploi Star academy Looksmart 2002 Vingt mots-clefs les plus utilisés Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Petite récréation http://betes.free.fr/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
R-DOC - autres zones • Recherches possibles sur l ’URL • Recherches sur les titres des pages • Recherches dans les zones invisibles • balise Meta « Keywords » ou « Description » • Recherches dans les pages archivées Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
R-DOC - trouver les mots-clefs Rien de tel que de prendre une feuille et un crayon pour commencer une recherche. Nous avons : • mots-clefs primaires • finance, commerce, tourisme, loisirs, voyage • mots-clefs secondaires • jus d ’orange, bourse, Chicago • mots-clefs interdits • avec fruits, apple éviter computer Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
R-DOC - résultats Sur un annuaire vous avez les catégories, puis le résultat avec une notice. Sur un moteur vous avez directement des résultats classés selon la pertinence. Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
R-DOC - indice de popularité • Historiquement les résultats sont présentés selon : • l ’occurrence du mot-clef • sa place dans le document, début, fin • la taille de celui-ci dans le texte • Indice de popularité (IPP) • liens qui pointent sur un site • double niveau pour éviter la triche Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Déclaration volontaire du site par son Webmaster, il est aussi possible d ’influencer les robots en mettant certaines indications dans le titre des pages, en choisissant la place des termes, en utilisant en HTML les zones meta- données (Head) ou se trouvent les mots-clés, titres. A travers un robot (spider ou crawler) qui explore de manière automatique la toile, il se faufile par les liens, seules les pages HTML sont prises en compte, il reste une importante partie non indexées somme les bases de données, les documents PDF (sauf Google) … passage tous les 2-3 mois vu la taille du WEB. R-DOC - indexation des sites Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
R-DOC - page en HTML Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Mots vides Indexation au mot Indexation en texte intégral Index monochamp Index multichamps Recherche en langage naturel Indexation automatique Analyse sémantique Analyse phonétique R-DOC - indexation Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
R-DOC - méthodologie • Quel est le sujet précis ? • Je recherche de l ’information sur la maladie de la vache folle • Quelle limite géographique, linguistique, temporelle ? • Documents en français de moins de trois ans • Quels mot clés conviendrait ? • Maladie de la vache folle • Moteur de recherche à utiliser ? • Http://metacrawler.com/index.html • Formulation précise de la recherche ? • Maladie de la vache folle • Les réponses sous quelle forme ? • Une adresse de site intéressant • Validité de l ’information ou évaluation du site ? Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
R-DOC - Service de référence En bibliothèque nous devons aussi penser à : • Qui demande l ’information ? • Quel est son niveau de connaissance ? • Pourquoi a-t-il-elle besoin de ces informations ? Dans la mesure du possible nous ferons avec notre lecteur la recherche et instaurerons à mesure un dialogue . Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
R-DOC - pages de résultats • Présentation par ordre de pertinence selon règles et hiérarchies pré-établies • emplacement du terme recherché, dans le titre, les mots-clé, texte ... • fréquence d’apparition du terme dans le document • par popularité (nombre de liens qui pointent sur le site) • Mais doublons souvent présents Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
51 % 47 % 20 % 16 % 6 % 2 % 2 % Bannières publicitaires Moteur de recherche Catalogue en ligne Compte bancaire Comparaison de prix Achat en ligne Petites annonces Source BVA Internautes ont consulté au moins une fois en janvier 2002 les sites suivants Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Un annuaire représente dans une hiérarchie de domaines et de sous-domaines un certain nombre de sites décrits par quelques informations précises. Yahoo 2 millions de sites Yahoo France 140 ’000 sites Nomade 140 ’000 sites Outils - annuaires Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - Yahoo • Créé en 1994 par deux étudiants de Stanford • D ’abord recenser leurs propres sites, avant de devenir une activité commerciale, Google prend la relève en cas ne non réponse. • 55 millions de requêtes de page par jour, • 2 millions de sites recensés, • 14% du trafic généré • En France en mai 2001 yahoo.fr • 3,2 millions de visiteurs, • 500 millions de pages vues. Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - essayer • J ’aimerais de la documentation sur les bibliothèques virtuelles • Essayez virtual libraries • Comparez le nombre de réponses Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - Yahoo 1 http://fr.yahoo.com/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - Yahoo 2 http://fr.yahoo.com/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - répertoires thématiques • Valeur ajoutée • Limitation du bruit • Donne adresses des sites • Biais par couverture régionale • Accès direct limité • Mises à jour aléatoires Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
INTERNET Interconnexion mondiales d ’ordinateurs, soit des utilisateurs avec leurs ordinateurs soit des serveurs. L ’Internet représente l ’aspect lié à l ’infrastructure, la « tuyauterie » du réseau mondial. WEB Ce n ’est qu ’une partie de l ’Internet qui permet de consulter des documents multimédias. Le WEB invisible c’est : Les archives de presse Les pages WEB crées avec des outils dynamiques Les banques de données gratuites ou payantes Vocabulaire Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Le moteur de recherche recensent des pages WEB dans un index, puis il classe les résultats selon un algorithme. Voilà 30 millions pages Altavista 13 millions en français 550 millions Lycos 11 millions Google 620 millions Outils - moteurs de recherche Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - Google • Dérivé de Gogol, 10 à la puissance 100 • Créé en 1998 par des étudiants de Stanford • Devient en 1999 une société commerciale • En juin 2001, 620 millions de pages en totalité sur leurs disques • Classement par indice de popularité • En France Google.fr • Peu de publicité et beaucoup de nouveautés • 56% du trafic généré dans le monde • Dont 40% pour Google France Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - essayer l ’outil • Nous cherchons de l ’information sur la musique baroque • Nous cherchons des informations sur le climat au Sénégal • Recherchez : french military victories, le résultat est éloquent Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - Google 1 http://www.google.com/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - Google 2 http://www.google.com/ Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - Google mode d ’emploi • Minuscules/majusculesIdem • Ordre des motsImportant • OUOR • ETOpérateur par défaut • SAUF- • TroncatureNon • Recherche linguistique • Recherche sur le nom du sitesite • etc ... Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - Google les secrets • Google tronque • Pages cachées ou archives • Documents cachés (Pdf, Doc …) • Google nationaux • Fêtes Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - robots généralistes • Simplicité d’utilisation • Couverture la plus complète • Mise à jour automatique et rapide • Amélioration constante • Bruit • Doublons non détectés • Hétérogénéité des réponses Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Recherche d ’une source d ’information globale, un site sur mon sujet m ’intéresse. ANNUAIRE On recherche par exemple le site de Renault Recherche d ’une donnée précise ou pointue, elle sera mentionnée sur une page. MOTEUR Je recherche des information sur la Renault Clio Outils - lequel choisir ? Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003
Outils - maîtriser l ’outil • Nous cherchons des informations sur la construction du Pont Butin à Genève Faire une recherche sur Yahoo et sur Google • Regardez les résultats et vous aurez une étendue des interprétations • Comparez les trois premiers résultats de chaque recherche Recherche documentaire & bibliographique - P. Gay-GIBIPO - P. Johner-CRDP - 2003