260 likes | 448 Views
Google - La recherche de données. 09 mars 2006. Sébastien Forner. Sébastien Forner. Sébastien Péron. Sébastien Péron. Ruben Zamblé-bi. Ruben Zamblé-bi. Master A.S.S. Table des matières. Présentation Générale. Fonctionnement du moteur Google. Structure déployée.
E N D
Google - La recherche de données 09 mars 2006 Sébastien Forner Sébastien Forner Sébastien Péron Sébastien Péron Ruben Zamblé-bi Ruben Zamblé-bi Master A.S.S
Table des matières • Présentation Générale • Fonctionnement du moteur Google • Structure déployée • Services offerts • Une approche de Datamining • Trustrank • Conclusion
Présentation générale • Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche Sources: barometre.secrets2moteurs.com
Présentation générale • Aboutissement d’un projet universitaire - Fondée par Lawrence E. Page et Sergey Brin (1998) - Approche scientifique de la recherche - Référence mondiale du moteur de recherche • Géant de l’informatique - Buisness model innovant - Introduite en bourse en Mai 2004 Sources: wikipedia.org
Fonctionnement du moteur Google (1 / 3) • Sobriété et valorisation des mots - Page simpliste • Accueil spécialement dédié à la recherche • Service accessible en bas débit - Valorisation des mots • Mise en place d’un système de vente d’espace publicitaire associé au mot recherché • Profilage des utilisateurs déjà mis en évidence
Fonctionnement du moteur Google (2 / 3) • Le système de classement « PageRank » - Principe de fonctionnement • Critère d’évaluation de la qualité d’une page • Échelle de notation variant de 0 à 10 - Dérive liée au PageRank • Apparition du « bombardement Google » (Google Bombing) • La « Google Dance » - Mise à jour du PageRank - Généralement 1 fois par mois
Fonctionnement du moteur Google (3 / 3) • Le processus d’indexation - Les « GoogleBot » • FreshCrawler • DeepCrawler - Les « GoogleBot MediaPartner » • Gestion des liens publicitaires - Les « GoogleAdWords » - Les « GoogleAdSense »
La Structure déployée (1 / 3) • Le Googleplex - Une boite à outils logiciels - Deux approches de sa structure
La Structure déployée (1 / 3) • Le Googleplex - Technologies importantes • a : Noyau linux • b : Une architecture distribuée permettant la connexion rapide de sources variées • c : une architecture technique identique à chaque niveau • d : Le réseau Internet
La Structure déployée (1 / 3) • Le Googleplex - Google se base sur la fusion de deux activités • a : L’ingénierie logicielle • b : L’ingénierie matérielle
La Structure déployée (1 / 3) • Le Googleplex - Google se base sur la fusion de deux activités
La Structure déployée (2 / 3) • Les Serveurs et centres de données - On distingue 6 principaux types de serveur • « Google Web » serveurs • « Data-Gathering » serveurs • « Index » serveurs • « Document » serveurs • « Ad» serveurs • « Spelling » serveurs
La Structure déployée (2 / 3) • Les Serveurs et centres de données - Stockage des serveurs dans les « Data centers » Sources: www.webrankinfo.com
La Structure déployée (2 / 3) • Les Serveurs et centres de données - Les serveurs et centres de données dans le Googleplex
La Structure déployée (3 / 3) • Architecture d’indexation - Description des principales étapes permettant l’indexation
Les services offerts • Orientés indexation / référencement de données • Mis œuvre par le « Google Labs » - Google Web • Accès principal au service de recherche - Google Desktop Search - Google Mini & Search Appliance - Google Images - Google Search Book - Google Video Store - Google Earth …….
Google vous surveille (1 / 4) • Google et les entreprises - Google est synonyme de puissance - Une grande promesse : ne plus perdre de documents stratégiques - 2 outils : Google Mini et Appliance: • À partir de 2995 euros • Indexe jusqu'à 15 millions de documents • Google Appliance peut accéder aux Bds et serveurs de fichiers • Gère 150 requêtes à la minute
Google vous surveille (1 / 4) • Google chez les particuliers - La Google Toolbar au service de Google Desktop • Correcteur d'orthographe • Blocage des fenêtres indésirables • Recherches améliorées avec suggestions en temps réel - L'espion qui m'aimait • Que se passe t'il lors d'une navigation à travers le web?
Google vous surveille (1 / 4) - Indication du PageRank de la page visitée • Adresse IP du poste de départ • Adresse de la page visitée - Création d'une BD à partir des différentes requêtes • Les sites préférés d'un utilisateur • L'utilisation des résultats proposés par Google - Une arme fatale car elle est infalsifiable - Exemples d'applications possibles : • Estimation de la qualité d'un site • Vérifier la qualité des résultats de Google • Identifier les spammeurs
Google vous surveille (1 / 4) • Vers une publicité intelligente - Création d'un portrait plus vrai que nature de l'utilisateur - Extension au géomarketing par l'intermédiaire de Google Earth - Buts recherchés : • Vendre des liens publicitaires ciblés aux annonceurs • Augmenter le taux de transformation • Une justification pour la hausse des tarifs - Que dit la législation? • Toute personne peut s'opposer à l'utilisation de ses données personnelles • Exportation de données vers les Etats-Unis : le Safe Harbor
TrustRank (1 / 5) • La guerre contre le spamdexing - Marque déposé par Google en mars 2005 - Introduit une année plus tôt par un article publié à Standford - Principes : • Sélectionner un échantillon de page • Détection du spamdexing parmi l'échantillon (appel de l'Oracle) • Propagation du principe bonne page / mauvaise page à travers le web
TrustRank (2 / 5) • Vision du web - le web est modélisé comme un graphe G = (V , E) - Chaque page possède des liens entrant et des liens sortants • Pas de liens entrant = “page sans référence” • Pas de liens sortant = “page ne référençant pas” • Pas de liens = “page isolée”
TrustRank (3 / 5) • Sélection de l'échantillon - Aléatoirement - PageRank inversé • Sélectionner les pages ayant de nombreux liens sortants • Optimiser le nombre de liens sortants par pages - PageRank élevé • Sélectionner des pages de fort PageRank • Permet d'orienter le TrustRank vers les pages dont il est important de connaître le niveau de confiance
TrustRank (4 / 5) • Appel de l'Oracle - Séparation en deux sous-ensembles de l'échantillon : • 1 pour les bonnes pages • 0 pour les mauvaises pages • 0,5 pour les pages n'appartenant pas à l'échantillon - C'est le principe de la confiance ignorante • « Isolation approximative » des bonnes pages - Une bonne page pointe rarement vers une mauvaise - Attention la réciproque est fausse
TrustRank (5 / 5) • Propagation de la confiance - Confiance à M étapes • C'est un mélange de la confiance ignorante et de l'isolation approximative • Exemple avec N = 3 : { 1, 3, 6 } • Amortissement de la confiance • Confiance atténuée • Confiance fractionnée
Conclusion • Google s’est imposé comme une référence • Google instaure un modèle économique révolutionnaire • Google a su utiliser au mieux le Data Mining • La numérisation de la culture, le nouveau défi à relever • Une logique professionnel ambitieuse : • - Anticiper nos besoins pour mieux y répondre…