1 / 26

Ruben Zamblé-bi

Google - La recherche de données. 09 mars 2006. Sébastien Forner. Sébastien Forner. Sébastien Péron. Sébastien Péron. Ruben Zamblé-bi. Ruben Zamblé-bi. Master A.S.S. Table des matières. Présentation Générale. Fonctionnement du moteur Google. Structure déployée.

Download Presentation

Ruben Zamblé-bi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Google - La recherche de données 09 mars 2006 Sébastien Forner Sébastien Forner Sébastien Péron Sébastien Péron Ruben Zamblé-bi Ruben Zamblé-bi Master A.S.S

  2. Table des matières • Présentation Générale • Fonctionnement du moteur Google • Structure déployée • Services offerts • Une approche de Datamining • Trustrank • Conclusion

  3. Présentation générale • Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche Sources: barometre.secrets2moteurs.com

  4. Présentation générale • Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche • Géant de l’informatique - Buisness model innovant - Introduite en bourse en Mai 2004 Sources: wikipedia.org

  5. Fonctionnement du moteur Google (1 / 3) • Sobriété et valorisation des mots - Page simpliste • Accueil spécialement dédié à la recherche • Service accessible en bas débit - Valorisation des mots • Mise en place d’un système de vente d’espace publicitaire associé au mot recherché • Profilage des utilisateurs déjà mis en évidence

  6. Fonctionnement du moteur Google (2 / 3) • Le système de classement « PageRank » - Principe de fonctionnement • Critère d’évaluation de la qualité d’une page • Échelle de notation variant de 0 à 10 - Dérive liée au PageRank • Apparition du « bombardement Google » (Google Bombing) • La « Google Dance » - Mise à jour du PageRank - Généralement 1 fois par mois

  7. Fonctionnement du moteur Google (3 / 3) • Le processus d’indexation - Les « GoogleBot » • FreshCrawler • DeepCrawler - Les « GoogleBot MediaPartner » • Gestion des liens publicitaires - Les « GoogleAdWords » - Les « GoogleAdSense »

  8. La Structure déployée (1 / 3) • Le Googleplex - Une boite à outils logiciels - Deux approches de sa structure

  9. La Structure déployée (1 / 3) • Le Googleplex - Technologies importantes • a : Noyau linux • b : Une architecture distribuée permettant la connexion rapide de sources variées • c : une architecture technique identique à chaque niveau • d : Le réseau Internet

  10. La Structure déployée (1 / 3) • Le Googleplex - Google se base sur la fusion de deux activités • a : L’ingénierie logicielle • b : L’ingénierie matérielle

  11. La Structure déployée (1 / 3) • Le Googleplex - Google se base sur la fusion de deux activités

  12. La Structure déployée (2 / 3) • Les Serveurs et centres de données - On distingue 6 principaux types de serveur • « Google Web » serveurs • « Data-Gathering » serveurs • « Index » serveurs • « Document » serveurs • « Ad» serveurs • « Spelling » serveurs

  13. La Structure déployée (2 / 3) • Les Serveurs et centres de données - Stockage des serveurs dans les « Data centers » Sources: www.webrankinfo.com

  14. La Structure déployée (2 / 3) • Les Serveurs et centres de données - Les serveurs et centres de données dans le Googleplex

  15. La Structure déployée (3 / 3) • Architecture d’indexation - Description des principales étapes permettant l’indexation

  16. Les services offerts • Orientés indexation / référencement de données • Mis œuvre par le « Google Labs » - Google Web • Accès principal au service de recherche - Google Desktop Search - Google Mini & Search Appliance - Google Images - Google Search Book - Google Video Store - Google Earth …….

  17. Google vous surveille (1 / 4) • Google et les entreprises - Google est synonyme de puissance - Une grande promesse : ne plus perdre de documents stratégiques - 2 outils : Google Mini et Appliance: • À partir de 2995 euros • Indexe jusqu'à 15 millions de documents • Google Appliance peut accéder aux Bds et serveurs de fichiers • Gère 150 requêtes à la minute

  18. Google vous surveille (1 / 4) • Google chez les particuliers - La Google Toolbar au service de Google Desktop • Correcteur d'orthographe • Blocage des fenêtres indésirables • Recherches améliorées avec suggestions en temps réel - L'espion qui m'aimait • Que se passe t'il lors d'une navigation à travers le web?

  19. Google vous surveille (1 / 4) - Indication du PageRank de la page visitée • Adresse IP du poste de départ • Adresse de la page visitée - Création d'une BD à partir des différentes requêtes • Les sites préférés d'un utilisateur • L'utilisation des résultats proposés par Google - Une arme fatale car elle est infalsifiable - Exemples d'applications possibles : • Estimation de la qualité d'un site • Vérifier la qualité des résultats de Google • Identifier les spammeurs

  20. Google vous surveille (1 / 4) • Vers une publicité intelligente - Création d'un portrait plus vrai que nature de l'utilisateur - Extension au géomarketing par l'intermédiaire de Google Earth - Buts recherchés : • Vendre des liens publicitaires ciblés aux annonceurs • Augmenter le taux de transformation • Une justification pour la hausse des tarifs - Que dit la législation? • Toute personne peut s'opposer à l'utilisation de ses données personnelles • Exportation de données vers les Etats-Unis : le Safe Harbor

  21. TrustRank (1 / 5) • La guerre contre le spamdexing - Marque déposé par Google en mars 2005 - Introduit une année plus tôt par un article publié à Standford - Principes : • Sélectionner un échantillon de page • Détection du spamdexing parmi l'échantillon (appel de l'Oracle) • Propagation du principe bonne page / mauvaise page à travers le web

  22. TrustRank (2 / 5) • Vision du web - le web est modélisé comme un graphe G = (V , E) - Chaque page possède des liens entrant et des liens sortants • Pas de liens entrant = “page sans référence” • Pas de liens sortant = “page ne référençant pas” • Pas de liens = “page isolée”

  23. TrustRank (3 / 5) • Sélection de l'échantillon - Aléatoirement - PageRank inversé • Sélectionner les pages ayant de nombreux liens sortants • Optimiser le nombre de liens sortants par pages - PageRank élevé • Sélectionner des pages de fort PageRank • Permet d'orienter le TrustRank vers les pages dont il est important de connaître le niveau de confiance

  24. TrustRank (4 / 5) • Appel de l'Oracle - Séparation en deux sous-ensembles de l'échantillon : • 1 pour les bonnes pages • 0 pour les mauvaises pages • 0,5 pour les pages n'appartenant pas à l'échantillon - C'est le principe de la confiance ignorante • « Isolation approximative » des bonnes pages - Une bonne page pointe rarement vers une mauvaise - Attention la réciproque est fausse

  25. TrustRank (5 / 5) • Propagation de la confiance - Confiance à M étapes • C'est un mélange de la confiance ignorante et de l'isolation approximative • Exemple avec N = 3 : { 1, 3, 6 } • Amortissement de la confiance • Confiance atténuée • Confiance fractionnée

  26. Conclusion • Google s’est imposé comme une référence • Google instaure un modèle économique révolutionnaire • Google a su utiliser au mieux le Data Mining • La numérisation de la culture, le nouveau défi à relever • Une logique professionnel ambitieuse : • - Anticiper nos besoins pour mieux y répondre…

More Related