310 likes | 375 Views
Google & le référencement. 90% de trafic en France et 57 % aux USA. 2 créateurs : Lawrence Page et Sergey Brin. 1995 – 1997 : Leurs rencontrent à l’université du Michigan.
E N D
Google & le référencement 90% de trafic en France et 57 % aux USA
2 créateurs : Lawrence Page et Sergey Brin. • 1995 – 1997 : Leurs rencontrent à l’université du Michigan. • 1996 : Ils décident de développer un moteur de recherche appelé : BackRub, qui présente la particularité d’analyser les « backlinks » des pages analysés. • La notion de PageRank naît de ses travaux. • Le manque de moyen leurs fait imaginer une technologie serveur utilisant des machines peu puissante couplé en parallèle. C’est toujours la même technologie qui est utilisé dans les data center GOOGLE. La genèse
Les deux chercheurs achetent des disques durs d’occasion pour constituer une base de données d’un terabyte (en 1998 !!!). • Ils louent un bureau et se mettent en quêtent de financeurs. • David Filo(Yahoo) leur conseillent de créer leurs propre moteur de recherche et de ne pas vendre leur concept. 1998 – A la recherche d’un Financement
Andy l’un des fondateurs de Sun Microsystems se laisse convaincre par l’entousiasme des 2 jeunes hommes et leur fait un chèque de 100000$. • La famille est les amis de Sergey et Larry se cotisent et parviennent à réunir 1 millions de dollars, quelques jours plus tard Google est née. 100 000 $ plus tard
Google devient trop grand en 1999 pour le petit garage et se déplace dans un bureau sur l’avenue de Palo Alto. • 8 personnes travaillent désormais pour Google et le moteur répond à plus de 500000 requêtes quotidiennes. • En Juin 1999, Google obtient 25 millions de dollars d’investissements de sociétés à capitaux à risques. Démenagement
En fin d’année 1999 Google n’est plus un simple projet mais un véritable moteur de recherche qui réponds à 3 millions de requête par jour. 3 millions
Google devient le premier moteur de recherche. • 1 milliards de page indexé. • Développement de Adwords et partenariat avec les moteurs concurrent. 2000 – Intégrer l’innovation
2001 – Google rachètent déjà.com et met en place son moteur de newsgroups. • Google annonce qu’elle vient de trouver quelque chose qui a manqué à la pluspart des autres sites sur internet : La rentabilité. • Les partenariats se multiplie dans le monde. • Google fonctionne dans 26 langues. 2001 – La maturité
Les relations entre Google et ses utilisateurs sont au beau fixe. • Le programme Google Ad sense explose • Google obtient le statut universel de premier moteur de recherche. • Le programme Google API se développe. • Lancement de Google News. 2002 – Les boites jaunes
L’index de Google passe à 4,8 milliards de page. • En Avril lancement de Gmail. • En Juillet rachat de Picasa. • La société passe la barre des 100 data-center. • CA : 809 millions de dollars pour 1 trimestre. 2004 – La course à l’index
Sortie de Google Map • Sortie de Google Earth • Création des boites bleus 2005 – Toujours plus loin
Valeur Numérique qui traduit l’importance d’une page sur le web. • Si de nombreux liens pointent sur une page, c’est qu’elle doit être importante. • Une page jugée importante par Google a plus de voix qu’une page avec un faible PageRank. Page Rank
On peut connaître le PageRank d’un site avec la barre Google Search. • L’échelle du Page Rank va de 1 à 10 pour Google Search. • Il faut distinguer le Page Rank de Google et celui de la barre Google Search. Page Rank
Le Page Rank de Google est inaccessible et varie de 0,15 en partant de 1 jusqu’à l’infini. • On ne connaît pas la correspondance entre les deux échelles mais on peut supposer qu’elle correspond à une échelle logarithmique. Page Rank
En partant sur cette échelle, on se rend compte combien il peut être difficile de passer d’un niveau à un autre. • Dans notre hypothèse il s’agirait d’un logarithme de base 10. Certains chercheurs avancent l’hypothèse que se pourrais être une Base 5 ou 6. • Sur une base 10 il faudrait 1 milliard de liens vers une page pour un rang 10. Page Rank
PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)) • PR signifie PageRank • A est une page web • PAR(A) est donc le PageRank de la page A • T1…Tn sont n pages web • C est le nombre de liens sortant d’une page • C(T1) est le nombre de liens sortants d’une page • C(T1) est le nombre de liens sortants existants dans la page T1. • PR(T1)/C(T1) est le vote de la page T1 pour la page A. • D est un facteur d’amortissement sa valeur de défaut est de 0,85. Calcul du PageRank
Si il n’y a aucun lien pointant vers A • PR(A)=(1-0,85)+0=0,15 • 0,15 est la valeur minimale du PR. En fait Google ne peut indexer une page que si il existe des liens vers elle dans des pages déjà indexé par Google. • Plus il existe de page pointant vers A plus le PageRank va augmenter. Quelques conséquences
La valeur du vote que donne une page T1 est divisé par le nombre de liens présent dans la page. • Une page de 100 liens affectera faiblement votre PR. • Donc si T1 n’a qu’un seul lien vers A alors le PR de A augmentera du PR de T1 multiplier par 0,85. Quelques conséquences
Site à 2 pages • Dans la page A => un lien vers B • Dans la page B => un lien vers A • C(A)=1 • C(B)=1 • Hypothèse PR = 1 Exemple de calcul
C’est la structure des liens qui impose le résultat. • C’est l’interaction des liens entre les pages qui rend impossible un calcul direct. • Le PR total maximum correspond au nombre de pages du site. (sauf site mal conçu). Conclusion
Plus les liens pointant vers votre page sont nombreux : plus votre PageRank va augmenter. • Google les nomme : backlink • Les liens font augmenter le PageRank si ils proviennent de page différente. Liens entrants
Ils font baisser le PageRank • Choisir soigneusement les pages ou les liens vont apparaître. • Si vous avez des liens sortant essayer d’avoir des liens entrant vers votre site. Liens sortant
Le PageRank • Le texte d’un lien • Différents éléments liés au texte présent dans une page et à son environnement. Autres critères
Google fait une copie (code HTML) • Sans les images • A partir de cette copie GOOGLE fait une analyse du contenu : • Nbre de mots • Position d’un mot • Occurrences des mots • Proximité d’un mot par rapport à un autre • Taille de police • La casse • Balises • Gras • ETC Différents éléments
Google n’aime pas les petits caractères • Même couleur de fond et de texte • Google analyse également le contenu des pages voisines, si Google y retrouve les mêmes mots clés alors il estimera que l’ensemble forme un contenu cohérent. A Eviter
Sandbox • Espace provisoire ou sont stockés les sites entrant dan l’index. • Permet de s’assurer du sérieux du site • Par exemple un site utilisant un référencement automatique créant une centaine de lien par jour pourrais sembler suspect. L’ancienneté
Technique qui permet d’associer des mots à une page particulière dans les résultats du moteur, sans que le résultat entre eux ne soit évident. • Utilise le PageRank et les mots clés. Google Bombing
Algorithme permettant de calculer l’indice de confiance d’une page web. • Lutter contre le web spamming. • Se base sur 200 sites dit de confiance. TrustRank
Un titre (si pas de titre l’URL) • Un texte • Une description(dmoz.org) • Une catégorie • L’URL • Une date (passage du robot) Affichage dans Google
Les farmslink • Le cloaking • Texte blanc sur fond blanc • Texte en très petit Site bannis et site punis
Raison inconnus • Localisation géographique • Nombre important de page satellites et re-directionjavascript Site bannis