600 likes | 734 Views
Graphes du Web, Mesures d’importance à la PageRank. Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot. À mon père. Parcours. Parcours entre maths et physique DEA ATIAM Tronc commun DEA algo
E N D
Graphes du Web,Mesures d’importanceà la PageRank Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot À mon père Université Montpellier II - LIRMM
Parcours Parcours entre maths et physique DEA ATIAM Tronc commun DEA algo Stage sur la téléphonie mobile (Daniel Krob) Une idée : les points chauds du Web Rencontre avec Laurent Viennot Thèse et monitorat avec Michel Habib 3 bureaux (LIAFA, LIRMM, INRIA) Université Montpellier II - LIRMM
Prélude :représenter un graphe du Web • Graphe du Web = pages + hyperliens • Matrice d’adjacence d’un graphe du Web : • Visuellement, c’est joli… • …et les sites apparaissent clairement Université Montpellier II - LIRMM
Exemple Université Montpellier II - LIRMM
Plan du mémoire • Structures du Web • Qu’est-ce que le Web ? • Crawlers, moteurs, tailles du Web • Graphes et structures du Web • Les PageRanks • Chaînes de Markov • PageRank : définitions, interprétations, limites • BackRank : une amélioration possible de PageRank • Décomposition fine du PageRank : FlowRank et BlowRank Université Montpellier II - LIRMM
Plan de l’exposé • PageRank • Systèmes de classement • Principe du modèle • Facteur d’amortissement • Problème des feuilles • BackRank • PageRank • BackRank • Motivation • Théorie : Back irréversible • Expérimentations • PageRank • BackRank Université Montpellier II - LIRMM
PageRank Théorie & pratique Université Montpellier II - LIRMM
S’orienter dans le Web • Web : masse « infinie » d’information • Besoin d’outils de recherche • Manuels : annuaires ! capacité de traitement limité • Automatiques : moteurs ! nécessité de trier les données Université Montpellier II - LIRMM
Méthodes de tri • Importance sémantique : pertinence • Indexation • Basée sur une requête (mots-clés) • Manipulable (spamming : abus de mots-clés) • Importance structurelle : PR, HITS… • Basée sur les hyperliens • Indépendante du contenu • Méthodes hybrides : TSPR , OPIC… • Autres ? Problème du secret industriel Université Montpellier II - LIRMM
PageRank • Introduit en 1998 avec Google • L’importance P d’une page vient de l’importance des pages qui la réfèrent • Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens) Université Montpellier II - LIRMM
Une double interprétation • Distribution d’importance (flot) • Chaque page possède une certaine importance P(v) • L’importance est diffusée par les hyperliens • Modèle du surfeur aléatoire • Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard • En choisissant , P est la probabilité de présence asymptotique (si elle existe) PageRank des pages qui pointent sur v PageRank d’une page v Université Montpellier II - LIRMM
Cas de convergence : théorème de Perron-Frobenius (1912) • On suppose G fortement connexe apériodique • Soit A la matrice stochastique associée • Alors P est solution de • Convergence vers le point fixe P par itérations successives : • Interprétation : chaîne de Markov Université Montpellier II - LIRMM
Limites du modèle idéalde PageRank ; facteur zap • G n’est jamais fortement connexe • La convergence du calcul est très lente • Modélisation : un surfeur réel ne fait pas que suivre des liens ! Introduction d’un zap : possibilité de ne pas suivre un hyperlien et de zapper Université Montpellier II - LIRMM
Équation d’amortissement • Propagation amortie par d (d=0,85) • Z est la distribution du zap • est la probabilité effective de zapper • Z est une source de flot Université Montpellier II - LIRMM
Propagation du PageRankavec zap PageRank amorti des pages qui pointent sur v PageRank de zap PageRank d’une page v Université Montpellier II - LIRMM
Les pages sans lien (feuilles) • Non gérées par le modèle, même avec zap • Processus mal défini • Pertes de flot ! nécessité de • Soit renormaliser • Soit travailler à source constante de flot • Le zap effectif est mal contrôlé : si on veut , alors >(1-d) Université Montpellier II - LIRMM
Les pages sans lien (suite) :problème du « remplumage » • Les feuilles ne servent à rien • On les enlève donc pour le calcul… • … et on les remet après convergence • Problème : PageRank sur le graphe effeuillé PageRank sur le graphe entier Université Montpellier II - LIRMM
BackRank Prise en charge des pages sans lien Université Montpellier II - LIRMM
Modéliser la touche Back :Concept et limitations • On veut pouvoir revenir en arrière dans le processus stochastique • Si PageRank modélise un surfeur réel, la touche Back est une amélioration • La touche Back gère les pages sans lien • On travaille maintenant sur un processus de Markov avec mémoire • Problème de la taille sur des gros graphes Université Montpellier II - LIRMM
Notre modèle : Back irréversible • La touche Back a l’importance d’un lien • Mémoire minimale : dernière page visitée • 2 Back ne peuvent être consécutifs Université Montpellier II - LIRMM
Formalisation • Phl(q,p) est la probabilité d’être en p en venant de q par un hyperlien • Pib(p) est la probabilité d’être en p grâce à la touche Back (historique vierge) • Phl(q,p) ne dépend pas du sommet d’arrivée p, et sera appelé Phl(q) Université Montpellier II - LIRMM
Équations du Back irréversible Université Montpellier II - LIRMM
Incorporation du zap • Le zap est facile à prendre en compte s’il désactive la touche Back • Attention si Z contient des feuilles Université Montpellier II - LIRMM
Algorithme pratique : BackRank • Propagation/Convergence • Reconstruction Université Montpellier II - LIRMM
Propagation de BackRank Back-attractivité de v Phl amorti des pages qui pointent sur v Phl d’une page v PageRank de zap Université Montpellier II - LIRMM
Importance de • Donne un classement différent ! modèle plus réaliste ? • Les feuilles n’ont pas de Phl… • …mais le PageRank obtenu est sur G entier ! • Convergence plus rapide (Gauss-Seidel) Université Montpellier II - LIRMM
Résultats expérimentaux • Graphes de travail • crawls de .fr, .uk, .it et Web entre 2001 et 2004 • 8.1, 18.5, 41.3 et 118 millions de sommets • PageRank vs BackRank • Zap : • d=0,85 • Distribution uniforme sur les pages avec lien Université Montpellier II - LIRMM
Chevauchement Chevauchement : 0% Chevauchement : 100% Chevauchement : 60% Université Montpellier II - LIRMM
Différence quantitativeentre PageRank et BackRank Université Montpellier II - LIRMM
Convergences comparées Université Montpellier II - LIRMM
Futurs travaux • Expérimentations de BackRank à grande échelle • Expérimentations de FlowRank et BlowRank, algorithmes de classement distribué de PageRank • Autre sujet de recherche : pair-à-pair Université Montpellier II - LIRMM
Publications Université Montpellier II - LIRMM
FIN Université Montpellier II - LIRMM
Influence du facteur d’amortissement sur le chevauchement Université Montpellier II - LIRMM
Décomposition du PageRank PageRank sortant externe PageRank entrant externe Diffusion à l’intérieur du site PageRank sortant de zap (dissipation) PageRank de zap (induction) Université Montpellier II - LIRMM
Équations du PageRankexterne Université Montpellier II - LIRMM
Amplification du PageRankd’un site Université Montpellier II - LIRMM
Amplification du PageRankd’une page d’un site Université Montpellier II - LIRMM
Propagation du PageRank Retour Université Montpellier II - LIRMM
Interprétation : surfeur aléatoire Université Montpellier II - LIRMM
Interprétation : surfeur aléatoire Université Montpellier II - LIRMM
Interprétation : surfeur aléatoire Université Montpellier II - LIRMM
Interprétation : surfeur aléatoire Université Montpellier II - LIRMM
Interprétation : surfeur aléatoire Université Montpellier II - LIRMM
Interprétation : surfeur aléatoire Université Montpellier II - LIRMM
Interprétation : surfeur aléatoire Université Montpellier II - LIRMM
Interprétation : surfeur aléatoire Université Montpellier II - LIRMM