430 likes | 551 Views
Recherches sur Internet: méthode et astuces http://www.destin.be/solutions/search.fr.shtml. Présentation au REWICS par Christophe Dupriez, Développement de Systèmes de Traitement de l’INformation http://www.destin.be 19 mars 2007. Recherches sur Internet. Mise en situation
E N D
Recherches sur Internet:méthode et astuceshttp://www.destin.be/solutions/search.fr.shtml Présentation au REWICSpar Christophe Dupriez,Développement de Systèmes de Traitement de l’INformationhttp://www.destin.be 19 mars 2007
Recherchessur Internet • Mise en situation • Moteur de Recherche Google • Méthode : Recherche spécifique ou recherche par sujet ? • Astuces : Recherche de codes, lieux, organismes, personnes, concepts, sources, dates, nombres, etc. • Pour aller plus loin…
Mise en situation • Pourquoi cherche-t-on ? • Chercher soi-même ou déléguer ? • Comment font les autres ? • Ne pas se perdre en chemin…
Pourquoi cherche-t-on ? • Parce qu’on en retire un bénéfice… • C’est une action qui apportera ce bénéfice. Action qui a des coûts en temps, en efforts, en argent… • Pour décider de l’action appropriée, il faut obtenir des informations. • Les informations ont comme valeur, le bénéfice des actions qu’elles permettent. • Les investissements en recherche doivent rester inférieurs à ce bénéfice !
Chercher soi-même ou déléguer? • Auto-formation: • Cycle de rétroaction court (trop court?) • Accompagnement (binôme): • Expliquer ses idées à l’autre, c’est déjà les formaliser… • Complémentarité des expériences et des connaissances terminologiques • Second regard d’un autre sur sa démarche (acteur/spectateur) • Nécessité d’une méthodologie • Délégation: • Exprimer son besoin (« cahier des charges ») • Evaluer le résultat • Cycle de rétroaction long (trop long?)
Un exemple de délégation: http://www.guichetdusavoir.org/GdS/
Comment font les autres ? http://www.harvestdigital.com/fact_sheets.cfm • 94% utilisent Google • 47% passent plus de 3 heures/semainerien qu'en recherches • 68% expriment leur recherche en utilisant 3 mots ou plus • 36% imputent leurs échecs à des mots mal choisis,32% les imputent à une demande trop spécialisée, 8% pensent que cela peut être dû au moteur de recherche. • 24% des internautes n'apprécient pas la présence de liens sponsorisés. • Pour sélectionner un lien dans le résultat:43% ne regardent que la première page de résultats32% choisissent en fonction du résumé associé au lien17% ne regardent que les quelques premiers liens 8% tiennent surtout compte de la réputation du site lié • Pour améliorer les résultats :50% demandent plus d'entraînement et d'expérience, 9% utiliseraient plusieurs moteurs, 5% voudraient de meilleurs moteurs.
Ne pas se perdre en chemin… • L’éparpillement nous guette:il y a tant de problèmes et tant de solutions, juste à portée de souris… • Notre mémoire ne peut pas faire face à la masse d’informations. Il faut l’aider: • Crayon et carnet pour noter un mot ou l'autre, faire des schémas… • Outil de marquage, de classement et d’enregistrement des pages visitées: • Personnel: • http://amb.vis.ne.jp/mozilla/scrapbook/ • http://www.netsnippets.com • Partagé: http://del.icio.us • Une méthode pour toujours savoir ce qu’on fait « ensuite », pour nous accompagner jusqu’à la communication de nos résultats de recherche.
Onglets dans Firefox et IE 7 ~queryexpansionterminology ~management "database search" OR"internet search"
Les Moteurs de Recherche • En gros, comment ça marche ? • Des idées aux mots, des mots aux idées… • Ce qui n’est pas indexé n’est pas trouvé… Ce qui est caché non plus! • Le moteur de recherche Google
En gros, comment ça marche? Google : 400.000 ordinateurs
Des idées aux mots,des mots aux idées… • L’Auteur a des idées qu’il transcrit par des enchaînements de mots dans un ou plusieurs documents inter-reliés. Les documents sont relativement statiques: ils contiennent, en quelque sorte, des réponses préparées à l'avance pour des questions qui ne sont pas toujours formulées. • L’Internaute a des besoins mais ce qu'il cherche ce sont des solutions… « Quels sont les mots que les auteurs ont bien pu utiliser pour décrire des réponses à mes questions,des solutions à mes besoins ? » • Les idées de l'auteur et les besoins de l'internaute sont séparés par: • Le vocabulaire et la langue de l'auteur, • Les hypothèses, les axes de solution à ses besoins que l'internaute est capable d'imaginer, • La langue et le vocabulaire de l'internaute. Comment gérer cette fracture entre les auteurs et les internautes ?
Ce qui n’est pas indexéne peut pas être trouvé… Dans le Web « invisible », on (ne) trouve (pas): • ce qui n'est pas écrit (images, sons…), • un serveur inaccessible de l’Internet, • un serveur inconnu de Google, • ce qui n'est pas lié au document « racine » d’un serveur, en un nombre limité d’étapes (ou directement par un document extérieur), • ce qui est produit dynamiquement en réponse à des données soumises au moyen d’un formulaire, • ce qui n’est pas accessible gratuitement, • ce qui est « non grata » pour le service d’indexation et de recherche (censure de certains sujets en Chine, journaux francophones belges…) Ce qui est caché non plus !
www.google.com • La documentation de Google sur son interprétation des requêtes est pour le moins spartiate. L’évolution du fonctionnement observé montre que ceci est sans doute à dessein pour garder une liberté de changement maximale. • GoogleGuide.com donne un très bon inventaire des possibilités avec différents exemples : http://www.googleguide.com/advanced_operators_reference.html • On évoquera ici: • Qu’est ce qu’un « mot » ? • Formulation d’un mot à chercher • Chercher une suite de mots • Opérateurs logiques (booléens) • Langue de l’utilisateur • Localisation de l’Internaute • Tri du résultat • Algorithme PageRank • La « valeur » d’un mot • Limites de Google
Qu’est ce qu’un mot ? • Une suite continue d’au plus 128 lettres OU chiffres OU « _ » (souligné), sans aucun caractère de ponctuation, espace ou balise <HTML> • Les lettres peuvent être dans différents alphabets (russe, grec, chinois, etc.) • H2O est donc cherché comme un seul mot: Google ne trouve alors pas les documents avec H 2 O ou H2O dans leur texte (l’indice est marqué par une balise <html>). • Pour trouver ceux-ci, il faut demander "H 2 O" ou mieux H-2-O qui fonctionne aussi pour les mots de plus d’une lettre (comme dans H-2-SO-3).
Formulation d’un mot à chercher • mot : Un mot et ses variantes singulier/pluriel - masculin/féminin – avec/sans accents. Par exemple chevaux d’arçon retrouve cheval d’arçon: cet algorithme fonctionne en français, en anglais mais mal en néerlandais. Attention : la variante que vous spécifiez est favorisée dans le tri des documents présentés (y compris l’accentuation). • ~mot : Un mot et ses synonymes. Fonctionne avec un dictionnaire anglais même sur les recherches en français et néerlandais !Essayer ~automobile -automobile pour voir les mots trouvés en dehors du terme strict automobile. ~arabic retourne Egypt, Lebanon, Arab et … Hindu ! Permet de mieux cibler le genre de résultat désiré. Par exemple:~definition, ~comparaison, ~problem • "mot" : Un mot exact sans variantes. Google ne tient pas compte de l’accentuation pour la recherche mais favorise la forme spécifiée lors du tri des documents présentés. • +mot : chercher ce mot même si c'est un mot vide dans la langue de l'utilisateur ( +de en français par exemple) et le chercher en tenant compte des accents ( +dés par exemple). Un « + » est assumé si un seul mot est cherché : thé seul agit comme si on avait tapé +thé.(Cette forme a donc une signification très différente de celle de Altavista où le "+" indiquait des mots obligatoires) • Lors du tri des documents, Google donne une certaine préférence à la forme tapée : l’opérateur « + » n’a donc plus beaucoup d’intérêt.
Chercherune suite de mots • "mot1 mot2 … motn" : une suite de mots spécifiques, une expression • * : une étoile dans une suite de mots entre guillemets (et seulement là) peut être mise à la place de quelques mots complets qu'on ne désire pas spécifier. Par exemple : "ministère du * et du commerce" • chiffres1-chiffres2-…-chiffresn: équivaut à"chiffres1 chiffres2 … chiffresn" • lettres1-lettres2-lettresn: chercher un terme composé de plusieurs mots, qu'il soit écrit avec des tirets, des espaces ou même sans espace du tout:gratte-ciel trouve gratte ciel, gratte-ciel et gratteciel .gratte-cielne signifie pas du tout la même chose quegratte -ciel (voir l'opérateur logique " -").Attention: ceci ne fonctionne bien qu'avec des mots et pas avec des nombres. • ca-va-seul fonctionne maintenant et montre l’utilité de ce type de recherche pour chercher des marques de commerce aux frontières de mots pas toujours constantes. • 354-1096 ne trouve plus 3541096. • intitle:"mot … mot" : une suite de mots spécifiquement dans le titre du document (balise <title>…</title> ou première balise <h1>…</h1>)
Opérateurs logiques (booléens) • espace : les documents doivent contenir ce qui est à droite ET ce qui est à gauche. • OR ou | : les documents peuvent contenir ce qui est à droite OU ce qui est à gauche.Attention : OR doit être écrit en majuscules ! • espace- (signe moins précédé d’un espace): exclure les documents contenant le mot qui suit (SAUF) • Peut exclure beaucoup plus que ce qui est désiré. • (mot -motIdentifiantUnContexte) : Une variante de signification peut être supprimée en excluant un contexte où elle apparaît. Par exemple:baleine –parapluie ou encore pied –va-nu-pied • ( … ) : sous-expression à évaluer avant de faire les opérations avoisinantes
Google trie en favorisant la langue de l’utilisateur:http://www.google.com/language_tools?hl=fr Il est essentiel de faire ses recherches en changeant sa langue d'utilisateur en fonction de la langue des mots cherchés: Tri des résultats qui favorise cette langue Algorithme adéquat pour rendre équivalents le singulier et le pluriel, le féminin et le masculin (le néerlandais n’est pas bien traité). Utilisation (peut-être un jour) du bon dictionnaire de synonymes
Localisation de l’internaute:http://www.google.com/language_tools?hl=fr Il est réellement important de choisir la « localisation » de ses recherches car le tri favorise les pages “proches” de cette localisation.
Tri du résultat La qualité de Google vient de sa capacité à montrer en premier les pages jugées les plus pertinentes en général et les plus pertinentes à une recherche en particulier. Google trie les documents trouvés en fonction: • de mesures de qualité du site en général et aussi de chacune des pages (cohérence des méta-informations avec le texte visible de la page par exemple). Ces mesures ne sont pas ou peu documentées. • une mesure du poids de chacune des pages indexées (algorithme PageRanks) • d'un calcul de la pertinence de la page vis-à-vis de la recherche effectuée. Ceci se fait en tenant compte: • de la présence dans la page (ou dans les liens vers cette page) des mots de la recherche (éventuellement élargis à leurs synonymes ou à leurs variantes singulier/pluriel) • de l'emplacement de ces mots dans la page (intitle:titre,méta-données, texte, inanchor:liens vers cette page) • pour chaque mot, de son poids “informationnel” • de la distance dans la page entre les mots cherchés: plus ils sont proches l'un de l'autre, plus la page est jugée pertinente vis-à-vis de la recherche effectuée. • de la langue de l'utilisateur qui devrait être aussi celle des mots cherchés : Pour changer la langue de l'utilisateur selon la langue des mots chercher, il faut modifier « à la main » l'URL de Googlehttp://www.google.be/search?hl=fr&q=...en changeant &hl=xx (xx étant le code en deux lettres de la langue désirée). • du pays indiqué par l’URL d’accès à Google :google.be accorde une nette préférence aux sites belges, google.fr aux sites français, google.com aux sites américains et google.co.uk aux sites anglais…
Algorithme PageRank:un star system… • Favoriser les pages jugées les plus pertinentes en général, les vedettes : Pages les plus référencées par des pages elles-mêmes très référencées • Cherchez-vous réellement à ne lire que des documents vedettes ? • Cité de Google: We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. C(A) is defined as the number of links going out of page A. The PageRank PR(A) of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one. PageRank can be calculated using a simple iterative algorithm, and corresponds to the principal eigenvector of the normalized link matrix of the web. • Voir aussi: http://pr.efactory.de/
Limites de Google • Les requêtes sont limitées à 32 mots. • Les mots sont limités à 128 caractères. • Seuls les 1000 premiers résultats pertinents pour une requête sont accessibles, et ce même si les correspondances sont plus nombreuses. Les résultats peuvent même parfois être moins de 1000 en raison de la suppression des pages provenant d’un même site. • D’après Google, obtenir plus de 1000 résultats entraînerait une lourde charge supplémentaire pour une demande finalement assez rare. • On nous dit que le tri assure que les références les plus utiles sont en premier. Effectivement, le tri se fait sur les 1000 résultats (et peut donc être très sophistiqué), mais comment se fait la sélection préalable ?
Méthode : Recherche spécifiqueou Recherche par sujet ? • Quand on connaît un titre, un nom, un code, une date, un numéro,on cherche quelque chose de spécifique, on rencontre alors principalement des problèmes lexicaux traités plus loin (Astuces). • Quand on cherche sur des thèmes, des sujets, on rencontre les différences de terminologie entre auteurs et internautes. La méthode qui suit prend alors tout son sens.
Stratégie: Identifier les outils et les sujetspour sa Recherche • Rédiger une expression de son besoin (Quoi? Pour quoi? Qui? Pour qui? Comment? Où? Quand?) • Rassembler quelques documents qui parlent de son besoin et qui évoquent des axes de solution. S’imprégner des principaux concepts du domaine. • Rédiger une expression du sujet de la recherche pour chaque axe de solution possible. • Pour chaque langue que l'on comprend, indépendamment, choisir de bons mots clés. • Identifier des sources adéquates: auteurs, institutions, entreprises, banques de données ou sites spécialistes du problème à résoudre (chercher à atteindre le Web invisible en utilisant les outils de recherche de sites spécialisés) • Trouver et classer les documents qui apportent l'un ou l'autre élément de réponse à son besoin.
La terminologie pour un sujet… • Pour chaque concept à chercher, le choix des termes (un terme étant formé d’un ou de plusieurs mots) est critique. • On trouve assez facilement des documents avec les termes que l’on utilise soi-même. Le défi est de trouver ceux avec les termes que d'autres utilisent pour le même concept: • Variantes orthographiques, • Synonymes, • Abréviations, • Spécifiques ou Génériques, • Changement du nom à travers l'histoire ou selon les auteurs (écoles de pensée), • Traductions dans d’autres langues que l’on comprend. • On s’aidera de glossaires, de dictionnaires, de textes explicatifs, etc.: • http://atilf.atilf.fr/dendien/scripts/tlfiv4/showps.exe?p=combi.htm;java=no; (Trésor de la Langue Française) • http://dico.isc.cnrs.fr/dico_html/ (français et anglais) • http://wordnet.princeton.edu/ (anglais) • http://thesaurus.reference.com/ (anglais) • http://www.systransoft.com (traductions) • Il serait tellement pratique d’être assisté par des dictionnaires automatiques dans la rédaction de ses requêtes… Google ne fonctionne que pour l’anglais, sans contrôle, et de manière insatisfaisante…
Rédiger sa requête au Moteur de recherche • Identifier les différents concepts qui entrent dans l'expression du sujet de la recherche: • Par exemple: durée du congé de maternité • Exhaustivité: Pour chacun de ces concepts, rassembler un maximum de manière de l'exprimeret faire un OU (union) entre chaque mot: durée | longueur | semaines | mois • Avec Google (en anglais jusqu’à présent), on peut utiliser le tilde avant un mot pour qu'il mette lui-même des synonymes de ce mot:~duration | length | weeks | months • Si l’expression qui exprime un concept est composée de plusieurs mots, il faut réunir ceux-ci par des guillemets ("congé de maternité") sans quoi on recevra aussi les pages où ces mots ne sont pas consécutifs. • Précision: Mettre ces expressions de recherche d'un concept côte à côte pour obtenir seulement les documents qui possèdent cette combinaison de concepts (ET implicite entre les groupes) • ( durée | longueur | semaines | mois ) ( congé | pause | vacances ) ( maternité | accouchement | naissance ) Bémol:Le tri de Google semble donner la préférence aux documents qui mentionnent plusieurs des termes réunis par un OU (OR)
Élargir avec variantes et synonymes,Restreindre en combinant les concepts CongéOR Pause OR Vacances (congé OR pause OR vacances)1(maternité OR accouchement OR naissance)2 1 2
Google: 1 750 000 pages en France (durée | longueur|semaines | mois) (congé | pause| vacances )( maternité| accouchement| naissance )
Niveau lexical: Astuces La Tactique… • Noms: • communs • Lieux • Organismes • Personnes • Sources (sites Internet) • Codes • Numéro de téléphone • ISBN • CAS • Nombres • Dates
Noms communs • la frontière entre les mots: où commencent-ils, où finissent-ils ? pipe-line ou pipeline ? H2O ou H 2 O ? • l'allemand et le néerlandais permettent de réunir plusieurs mots en un seul: impossible de les trouver sans troncature à gauche… • les alphabets différents d'une langue à une autre: un même nom propre peut être orthographié différemment dans l'alphabet arabe, cyrillique ou japonais • les accents: "The" vs "thé", "de" vs "dé", "poisson sale" vs "poisson salé", etc.
Un lieu • Terminologie: Identifier les synonymes, les abréviations, les traductions et les spécifiques. Par exemple :Belgique|Bruxelles|Anvers|Gand|Liège|Namur • Les noms de lieux ont souvent des variantes selon la langue qui sert à les nommer Liège|Luik Moscou|Moscow|МосковPlusieurs langues admettent les déclinaisons qui font varier la fin d'un mot: l'opérateur de troncature * serait alors bien utile. • Quelles sont les exportations de la République de Macédoine ? ~importation (république | republic)(macédoine | macédonien | macedonia | macedonian | makedonia | "F Y R O M")
Une organisation • Terminologie: il faut identifier: • les synonymes, • les sigles, • les traductions, • les entités englobantes ou les subdivisions, • les changements de nom à travers l'histoire (fusions) • Il n'est pas nécessaire de faire "I B M" | IBM car Google le fait automatiquement pour les mots de une lettre.Il suffit de taper "I B M"
Une personne • Identifier : Abréviations, ordre/absence des prénoms, d'une initiale (anglo-saxons) • Chercher quelqu'un s'appelant "Prénom Initiale Nom": "Prénom I Nom" | "P I Nom" | "Nom Prénom I" | "Nom P I" • Google cherche alors automatiquement aussi bien "P I" que "PI". Si PI est un mot fréquent (et introduit donc du bruit dans la recherche), vous pouvez écrire: "Prénom I Nom" | "+P +I Nom" | "Nom Prénom I" | "Nom +P +I" • On peut aussi exiger une accentuation spécifique pour discriminer entre des textes de différentes langues: +mélanie par exemple ne trouve pas Melanie Griffith.
Source – Site Internet • Les sites Internet sont identifiés par un nom de domaine. Ce dernier va, de gauche à droite, du spécifique au générique, du nom d’un serveur (www) au code d’un pays (be) en passant par le nom de l’organisme. • Vous pouvez restreindre une recherche en indiquant site:domaine. Comme tous les niveaux de domaines sont permis, vous pouvez chercher, par exemple: • site:db.amazone.be pour les banques de données de l’ASBL Amazone • site:amazone.be pour tout le site de l’ASBL Amazone • site:qc.ca pour un site québécois • site:ca pour un site canadien • site:ac.be pour un site académique belge • site:co.uk pour un site commercial du Royaume Uni • Vous pouvez faire OR pour unir plusieurs domaines: • site:co.uk | site:com | site:bizpour exiger un site commercial
Numéro de téléphone • Le problème vient ici des nombreuses variations dans le regroupement des chiffres. • Google vient tout juste de changer: 354-1096 (tirets entourés de chiffres) équivaut maintenant seulement à "354 1096" et ne trouve plus 3541096. • Pour trouver tous les documents mettant en contact avec une grande firme à Bruxelles, on doit énumérer de nombreuses façons de l’écrire :"I B M" "02 225 3333" | "02 225 33 33" | "2 225 3333" | "2 225 33 33" | "022253333" | "22253333" Ce qui retrouve: • « Pour toute question générale sur IBM Belgium/Luxembourg, appelez le 02 225 33 33 » • « IBM - Bruxelles (HQ) Avenue du Bourget/Bourgetlaan, 42 B-1130 Bruxelles Tel: + 32 2 225 33 33 » • « Contact Info de contact générale +32-2-225-3333 »
Code ISBN • Identifie un livre • Deux variantes à chercher: • Sans ponctuation mais avec chiffre preuve (10 chiffres) • Avec ponctuation mais sans chiffre-preuve (9 chiffres en 3 groupes). • Par exemple:2748900375 | 2-7489-0037 • Génère souvent une proposition erronée:
Code CAS(Chemical Abstract Service Number) • Identifie un composé chimique • Très discriminant: on peut souvent omettre de spécifier « CAS » • Par exemple: • "C A S 118 55 8" : 53 documents • "C A S" 118-55-8 : 645 documents • 118-55-8 : 741 documents
Nombres • Google est capable de chercher sur un intervalle de nombre. Mais ceux-ci doivent être dans la forme nord américaine (123 456.9999) et non pas européenne (123.456,9999) ! • Ethnocentrisme patent mais Google évolue… • A terme cet opérateur pourrait justement convertir les références aux nombres en tenant compte des différentes conventions tant des internautes que des auteurs. • On peut chercher sur un intervalle noté minimum..maximum(minimum et maximum pouvant avoir des décimales). • On peut aussi écrire numrange:minimum-maximum (minimum ou maximum peut alors être omis pour indiquer un intervalle ouvert). • On ne peut pas chercher des nombres négatifs (commençant par un "-") !
Dates dans le texte • Grand nombre de variantes selon le pays, le contexte et la langue • Aucune aide dans les moteurs de recherche actuel • Par exemple:27-05-1958 | 1958-05-27| 27051958 | 19580527 | "27 mai 1958"| "may 27th 1958"| "may 27 1958" | "27 may 1958" | "27 05 58" | "58 05 27"| 270558 | 580527
Date de modification du document • Google: Lors d'une recherche par dates, la date est celle de l'indexation dans la banque de données (i.e. la visite du « spider » Google) et non celle de la publication effective de la page (telle que fournie par le serveur http://) • Dans le formulaire de recherche avancée, vous pouvez faire une recherche sur les derniers 3, 6 et 12 mois. • L’opérateur daterange:date julienne-date julienne permet de spécifier un autre intervalle de dates. Une date julienne est le nombre de jours écoulés depuis le début de notre ère: le site http://www.numerical-recipes.com/julian.html peut vous aider à le calculer. Pas facile! • Les moteurs de recherche pourraient conserver comme « date de modification » la date de dernière visite du « spider » avec des changements significatifs dans le contenu de la page…
Pour aller plus loin… • http://www.destin.be/solutions/search.fr.shtml • Aeris, Aide aux étudiants pour la recherche d'information scientifique, Guillemette Lauters, 1999-2006, http://users.11vm-serv.net/aeris/ • CERISE, Conseils aux Etudiants pour une Recherche d'Information Spécialisée Efficace, URFIST de Paris, 1999, http://www.ext.upmc.fr/urfist/cerise/index.htm • Infosphère, Apprendre à faire une recherche d'information efficace, Service des bibliothèques de l'UQAM, 2004, http://www.bibliotheques.uqam.ca/InfoSphere/ • SAPRISTI, des Sentiers d'Accès et des Pistes de Recherche d'Information Scientifiques et Techniques sur Internet, Doc'INSA, INSA de Lyon, 1997-2004, http://docinsa.insa-lyon.fr/sapristi/ • University of California Berkeley Library "Teaching Library Internet Workshops"http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/About.html