1 / 117

Recherche d’Informations sur Internet

Recherche d’Informations sur Internet. Réaliser par Mr VERBERT, professeur de SVT avec la participation de Mr LEBON, responsable « Informatique et réseau », Lycée La Malassise Longuenesse. Problématique. “Comment trouver facilement et efficacement l’information sur Internet”.

sanaa
Download Presentation

Recherche d’Informations sur Internet

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Recherche d’Informations sur Internet Réaliser par Mr VERBERT, professeur de SVT avec la participation de Mr LEBON, responsable « Informatique et réseau », Lycée La Malassise Longuenesse

  2. Problématique “Comment trouver facilement et efficacement l’information sur Internet”

  3. Organisation de la présentation • Introduction • Sources d’Informations • Les opérateurs logiques • Annuaires de recherche thématique • Moteurs de recherche • Métamoteur • Création d’une fiche ressource • Impression partielle d’un site

  4. Le contexte • Internet équivalent à une bibliothèque dans laquelle, sans l'utilisation de repères et sans aide, il serait difficile de se retrouver devant le gisement des informations. • Les premiers systèmes de recherche : • Veronica (Very Easy Redent Oriented Net-wide Index to Computerized Archives). •  Recherche dans les titres • Wais : outil de recherche texte intégral • Réservé au monde clos des Universités • En 1997 : il existe plus de 100 millions de pages •  naissance des services Yahoo!, Infoseek, Altavista. •  Financés par la publicité.

  5. Le contexte • La concurrence des services oblige l'utilisateur à formuler sa requête différemment. Importance de l'aide en ligne.Les utilisateurs oublient cela et ne tapent que 1 ou 2 mots clés. Cela peut entraîner plus de 100.000 documents en réponse. • Ce qui est demandé à un moteur n'est pas de donner l'exhaustivité sur 1 sujet mais plutôt les documents intéressants répondant à une problématique •  intelligence artificielle. • Un outil de recherche n'est pas réservé au web, il permet aussi de rechercher : • email • Forums de discussion • Logiciels, ...

  6. Document Internet www.serveur.fr • Une page sur Internet = un document HTML (HyperText Markup Language • Longueur non définie • Son nom : document.html ou document.htm • Adresse (URL) http://www.serveur.fr/Repertoire/SousRepertoires/Document.html La page "document.html" se trouve sur une machine dont le nom est www.serveur.fr et sur cet ordinateur, la page se trouve dans le dossier sous répertoire lui même dans le dossier répertoire. • Si le serveur ne trouve pas le document, il renvoie une erreur 404 : Not found, Page not found, Document not found. • Ex : http://www.adit.fr/Produits/TF/tf.html • On peut tenter de la retrouver par le sous répertoire.

  7. Rappels sur la première partie d'une adresse http://www.serveur.fr • http:// Hypertext Transfer Protocol : protocole utilisé pour l’échange de pages entre un serveur et le logiciel de navigation • www nom de l'ordinateur (pas obligatoire) ex : perso.wanadoo.fr… • serveur nom de l'organisme propriétaire de la machine • Domaine 2 lettres (géographique) 3 lettres (type d'établissement) • Important : Un serveur peut héberger plusieurs services (sites).

  8. Quelques grands concepts • Parfois, les médias, à tort, donnent l'impression que l'on peut tout trouver sur Internet C'est faux. • On peut perdre énormément de temps à rechercher une information. Il faut savoir décrocher si on ne trouve pas. Ne pas s'entêter. • Ne pas prendre pour argent comptant une information trouvée sur Internet. Il faut, quand cela est possible, vérifier la source des informations. • Rappels : tout utilisateur peut dispenser de l'information sur le Net. • De manière générale, l'info est gratuite car rémunérée par de la publicité. • Ne pas oublier que l'information peut être trouvée par d'autres moyens que la recherche, par les listes de diffusion ou forums de discussions. • Le "push" offre le moyen de se tenir informé selon un modèle prédéfini configuré au préalable.

  9. Un constat sur la pratique de la recherche • 90 % se contentent des recherches les plus élémentaires (un ou deux mots clés). • Des services très utiles de FAQ (Foire aux Questions), listes d'email, forums, sont méconnus des utilisateurs.

  10. Les sources d’informations • les sites officiels des entreprises/organismes • Sites de références. On les trouve souvent par les moteurs thématiques • Les pages bénévoles • Attention, vérifier la fiabilité des informations • Avantage : on peut profiter du travail de recherche effectué par un passionné • Les laboratoires de recherche/universités • Thèses, travaux des étudiants.

  11. Les sources d’informations • Les bibliothèques : • Ex : www.bnf.fr (Opale-BN) • Plus de 200 millions de références • Les sites gouvernementaux et institutionnels • ex : Ministère des Finances, de l'Industrie, etc… • Les banques de données • Les organismes de presse • Gratuits. Financés par de la publicité. • Ex : www.globeonline.fr

  12. Les opérateurs logiques

  13. Les opérateurs logiques • Opérateurs logiques (booléens) • ET (AND) • OU (OR) • SAUF (NOT) • Opérateurs de troncatures • *, ?,… • Opérateurs de proximité • Proche (NEAR)

  14. Logique Booléenne 1/6 • ET (AND) - + - Intersection - “tous les mots (all)” légume ET rond

  15. Logique Booléenne 2/6 • ET (AND) - Intersection - “tous les mots (all)” légume ET rond ET rouge

  16. Logique Booléenne 3/6 • OU (OR) - {espace} - Réunion - “un des mots (any)” légume OU rond

  17. Logique Booléenne 4/6 • OU (OR) - Réunion - “un des mots (any)” légume OU rond OU rouge

  18. Logique Booléenne 5/6 • Combinaison de ET et de OU Légume ET (rond OU rouge)

  19. Logique Booléenne 6/6 • Combinaison de ET et de OU (Légume ET rond) OU rouge

  20. Les Annuaires de recherche par thèmes

  21. Principe de l’annuaire • Nés en 1993 • Il propose une recherche : • géographique • thématique • par mots clés • On peut les assimiler à des pages jaunes mises à jour en permanence. • Il propose un thesaurus interactif. Il va d'un thème le plus général vers le plus précis pour fournir à la fin une liste de sites. • Exemple : faisons une recherche dans un annuaire

  22. Yahoo! (Yet Another Hierarchical Officious Oracle) • Pour la petite histoire : • date de création : avril 1994 par deux étudiants de l'Université de Stanford • en 1997 : • 600.000 sites référencés • 38 millions de requêtes par jour • Ligne d'accès : 45 Mbps

  23. Yahoo! légende des informations actualisées heure par heure sont mises à disposition par l'agence de presse Reuter un des meilleurs sites dans sa catégorie Nouveau ! Critique du site dans ZDNet rubrique présente dans plusieurs thèmes [xtra!] @

  24. Yahoo! légende • Nombre de sites répertoriés. • liste des sites non réalisés par Yahoo! • Hiérarchie de la catégorie • actualité par rapport à cette catégorie. (113) Indices Sub category listing Yahoo! Net events

  25. Yahoo! Recherche par mots clés • Ces recherches ne s'effectuent pas dans le texte intégral de la page mais par rapport aux indications enregistrées par l'auteur du site : • le titre • l'adresse • deux lignes de commentaires • noms des catégories choisies • Lorsqu'il ne trouve pas, Yahoo! propose un résultat provenant du moteur d'Inktomi.

  26. Yahoo! Exemple • mot-clé : finance • Catégories : • Présente toutes les rubriques où figure la requête. • Site web : • Propose la liste des sites web où figure la requête • Autres pages : • Réponse à la requête par Inktomi • Dépêches d'actualité : • Actualité concernant la requête

  27. Yahoo! Classement • Une fois les mots clés saisis, Yahoo! recherche les occurrences des mots indiqués. • Son classement : • Nombre d'occurrences des mots trouvées par Yahoo! • Si les mots sont présents dans la liste • Mieux classés si parmi les 14 grandes catégories

  28. Yahoo! Recherche plus affinée • Le « ET » est symbolisé par le signe « + » • Exemple 1 : +veille +technologique Présence obligatoire des deux mots dans la recherche • Exemple 2 : veille technologique Recherche des sites contenant l'un des deux mots • Important :veille +technologique est différent de +veille +technologique Dans le premier cas, recherche obligatoire de "technologique" et éventuellement "veille"

  29. Yahoo! Recherche plus affinée • Le « sauf » est symbolisé par le signe « - » • exemple : +ordinateur +multimédia –apple • Recherche sur une chaîne de caractères • exemple : "virus informatique" Cherche les deux mots placés l'un à côté de l'autre

  30. Yahoo! Recherche plus affinée • Le joker est symbolisé par le signe « * » • Sans joker : recherche exacte du mot • Avec joker : recherche la correspondance exacte d'un début de mot suivi de tout ce qui se trouve d'autre commençant par d'autres lettres • Exemple : • Recherche avec Cap* : • Cap • Capitaine • Capital • … • Important : Le joker se trouve toujours à la fin, jamais au début ou au milieu d'un mot.

  31. Yahoo! Restreindre la recherche • Option t : • recherche dans le titre uniquement • Option u: • recherche dans l'URL • exemple 1 : t:Boulogne • exemple 2 : u:ports

  32. Yahoo! Restreindre la recherche • On peut mixer à loisir les options de recherche. • Exemple : +t:ordinateur +PC –apple

  33. Yahoo! Options avancées

  34. Autres annuaires thématiques • International : • Yahoo ! International • Snap • Open Directory • Looksmart • France • Yahoo ! France • Nomade

  35. Moteurs de recherche par mots clés

  36. Présentation • La démarche logique d'un internaute qui recherche l'information est d'entrer une suite de mots clés. • Un moteur de recherche indexe le texte intégral d'un site. • L'utilisateur entrera une série de mots clés reliée par des opérateurs logiques. Le moteur ira chercher les occurrences de ces mots dans les pages sources et affichera le résultat des pages qui lui semble les plus pertinentes.

  37. Indexation des pages Il existe deux façons d'indexer les pages dans un moteur de recherche : • par le responsable du site : déclaration volontaire • par le robot du moteur (spiders, crawlers, agents) qui parcourt automatiquement le Web en naviguant à travers les liens hypertextes. Important : La page ne sera pas indexée si d'autres sites Web n'y font pas référence HOTBOT ALTAVISTA GOOGLE

  38. Page principale Lien 1Lien 2Lien 3 Page 1 Page 2 Page 3 Lien 1Lien 2Lien 3 Lien 1Lien 2Lien 3 Lien 1Lien 2Lien 3

  39. Périodicité de scrutation Un robot fait le tour de tous les sites en 10 à 20 jours. Robot  Serveur d’index   Site web moteur de recherche

  40. Limites d’un serveur • La fréquence d'actualisation étant longue, la recherche d'informations n'est pas valable sur des sites qui changent tous les jours. Exemple : la Presse. • L'indexation ne concerne que les pages statiques, pas celles générées par une base de données. Exemple : base de données du site "Le Monde". • Il est possible, pour le concepteur des pages, d'indiquer dans celles-ci qu'il ne souhaite pas figurer dans tel ou tel moteur de recherche. Ceci est assez anecdotique car ce n'est pas dans le principe du Web, sauf pages à usage privée ou pages en cours de création.

  41. ALTAVISTA http://www.altavista.com/ http://www.av.com/ http://altavista.digital.com/ Retour

  42. AV Pour la petite histoire... • fin 1997, Altavista annonce 100 millions de pages indexées • 10 millions de requêtes par jour • La puissance totale du système Altavista correspond à 375 PC haut de gamme mis en réseau • La connexion à Internet s'établit sur une ligne à 100Mbps • Le robot indexe 10 millions de pages par jour • 2000 sites majeurs (parmi les plus populaires) sont scrutés tous les jours • Le service a depuis été décliné en plusieurs points du monde.

  43. Recherches simples sur AltaVista • Les recherches peuvent s'effectuer : • sur le Web • les actualités • dans les forums de discussions • les produits • Un menu déroulant offre le choix de la langue • Le lancement d'une recherche affiche le résultat suivant :

  44. AV : Résultat d’une recherche • En haut de page : Il est indiqué le nombre de pages correspondant à la requête.

  45. AV : Résultat d’une recherche En bas de page : • Est indiqué le nombre de fois où Altavista a trouvé chacun des mots dans ses pages. • Des chiffres de 1 à 20 permettent de circuler dans chaque groupe de 10 réponses. • [next>>] : permet d'obtenir les groupes de réponses suivantes.

  46. Classement des pages • Critères retenus : • présence de tous les mots dans la requête • présence des mots recherchés au début du document (dans le titre), plutôt qu'à la fin • proximité des mots dans le document • rareté des termes demandés dans la base des documents exemple : le mot "caniche" aura un poids plus élevé que le mot "chien".

  47. Classement des pages • Le nombre d'occurrences d'un mot ne joue aucun rôle dans le classement d'une page. Exemple : 20 fois le mot "Boulogne" dans une page donnera le même score qu'une seule fois. • L'affichage du résultat se fait dans l'ordre décroissant de pertinence.

  48. Mode d'interrogation • Mot clé : correspond à une suite de lettres ou chiffres séparés par un espace ou tout caractère non alphabétique (&, %,$, /,…). • Les signes de ponctuation ne sont pas indexés. • on peut interroger Altavista en langage clair mais il vaut mieux utiliser les fonctionnalités que nous allons voir plus loin. • Les minuscules et les majuscules ont leur importance • Exemple 1 : si vous tapez "boulogne" Altavista cherchera les mots : • boulogne • Boulogne • BOULOGNE • Exemple 2 : si vous tapez "Boulogne” Altavista cherchera uniquement le mot "Boulogne” Il est donc recommandé de taper les mots clés en minuscules afin de ne fermer aucune porte.

More Related