1 / 14

Fuite de pagerank et robots.txt

Fuite de pagerank et robots.txt. SEO Camp du 17 octobre 2008. Philippe YONNET Directeur du pôle métiers – Aposition Président de l’association SEOCamp. La notion de potentiel de pagerank. La somme de tous les PR des pages d'un site constitue le "potentiel de PR" de ce site

maj
Download Presentation

Fuite de pagerank et robots.txt

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fuite de pagerank et robots.txt SEO Camp du 17 octobre 2008 Philippe YONNET Directeur du pôle métiers – Aposition Président de l’association SEOCamp

  2. La notion de potentiel de pagerank • La somme de tous les PR des pages d'un site constitue le "potentiel de PR" de ce site Ppr =  PR des pages

  3. La "formule" du potentiel • Le potentiel de PR a été "théorisé" à partir d'un travail mathématique sur la formule du PR par des chercheurs Italiens : "Inside Pagerank" Monica Bianchini, Marco Gori, Franco ScarselliUniversité de Sienne (publié en 2005) P = | I | + Pin + Pout - PDp

  4. La "signification" de la formule P = | I | + Pin - Pout - PDp • P = Potentiel de PR total • I = Potentiel "interne" du site – dépend uniquement du nombre de pages • Pin = Potentiel provenant des backlinks • Pout = Potentiel perdu par les liens sortants • PDp = Potentiel perdu par les pages pendantes

  5. Euh… c’est quoi une « dangling page » ? • Traduction : page "ballante", "en suspens" • Transposition : page cul de sac • Définition : page qui ne contient aucun lien vers d'autres pages, mais qui reçoit des liens

  6. Euh… c’est quoi une « dangling page » ? Dangling page Page normale Mais dispose de liens sortants qui pointent vers d’autres pages Elle est la cible de liens entrants Elle reçoit des liens ---- ---- ---- ---- ---- ---- ---- ---- Mais il n’y aucun lien sortant sur la page !! ---- ---- ---- ---- • Traduction : page "ballante", "en suspens" • Transposition : page cul de sac • Définition : page qui ne contient aucun lien vers d'autres pages, mais qui reçoit des liens

  7. Y'a-t-il réellement une fuite avec les dangling pages ? ? La controverse autour de l'article initial de Page et Brin "Dangling links" are simply links that point to any page with no outgoing links. They affect the model because it is not clear where their weight should be distributed, and there are a large number of them. Often these dangling links are simply pages that we have not downloaded yet..........Because dangling links do not affect the ranking of any other page directly, we simply remove them from the system until all the page ranks are calculated. After all the page ranks are calculated they can be added back in without affecting things significantly.“ Extrait de l’article original sur le Pagerank par Brin et Page

  8. La réponse est OUI IL Y'A BIEN UNE FUITE ! Les "dangling links" sont retirés de la matrice des liens lors du calcul du pagerank. Les omettre n'a aucune influence puisque de toute façon • Ils ralentissent (empêchent) le calcul du Pagerank • Les nœuds correspondant à ces liens sont retirés pendant toute la phase des itérations pour obtenir la valeur finale • Ils sont réinjectés à la fin • Lors de la dernière itération : ils reçoivent leur pagerank définitif : une seule passe suffit

  9. Les particularités des pages bloquées par robots.txt • Leur contenu peut il être crawlé ! NON • Sont elles connues du moteur ? OUI (éventuellement) • Peuvent-elles apparaître dans l'index ? OUI • Peuvent-elles avoir du PR ? OUI (=>interview Matt Cutts par Eric Enge) Le problème : ce sont des DANGLING PAGES

  10. Le PR de ces pages disparait dans un TROU NOIR

  11. Le mécanisme de la fuite de PR Tout le PR transmis est perdu ! ANNIHILE Mise en place d’un robots.txt bloquant ce groupe de pages Les liens sortants sont inconnus Ces pages sont devenues des DANGLING PAGES Ces pages ne sont plus crawlées Par contre elles sont connues grâce aux liens entrants qui transmettent du PR

  12. Comment éviter de perdre bêtement du PR • Rechercher tous les liens internes ou externes pointant vers ces pages • Si une page reçoit du pagerank externe : préférer un noindex, et modifier la structure des liens de la page qu'on ne veut pas voir indexée • On fait disparaître les liens internes vers ces pages, ou place un attribut nofollow, ou on les masque avec un javascript

  13. Comment créer un "trou noir" engloutissant du PR avec un robots.txt • On bloque l'indexation de pages avec un robots.txt • On ne touche pas aux liens pointant vers ces pages • Tout le PR transmis par ces liens est perdu pour le site ! Ex : un site contient une page avec un PR 5. Cette page contient dix liens, dont un vers une page bloquée. Le PR perdu correspond à 10% du PR transmis !

  14. Quel impact espérer ? • Souvent : aucun (la fuite est souvent négligeable, ou concerne des pages qui n'ont pas de PR) • Parfois : important (le PR sculpting peut être complètement perturbé par le "trou noir à PR") • L'importance des "fuites" dépend de beaucoup de facteurs, chaque cas est différent. Soit vous savez faire et voulez faire du "PR sculpting" => tenez en compte Sinon : surtout ne vous en préoccupez pas

More Related