1 / 60

Graphes du Web, Mesures d’importance à la PageRank

Graphes du Web, Mesures d’importance à la PageRank. Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot. À mon père. Parcours. Parcours entre maths et physique DEA ATIAM Tronc commun DEA algo

keon
Télécharger la présentation

Graphes du Web, Mesures d’importance à la PageRank

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Graphes du Web,Mesures d’importanceà la PageRank Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot À mon père Université Montpellier II - LIRMM

  2. Parcours Parcours entre maths et physique DEA ATIAM Tronc commun DEA algo Stage sur la téléphonie mobile (Daniel Krob) Une idée : les points chauds du Web Rencontre avec Laurent Viennot Thèse et monitorat avec Michel Habib 3 bureaux (LIAFA, LIRMM, INRIA) Université Montpellier II - LIRMM

  3. Prélude :représenter un graphe du Web • Graphe du Web = pages + hyperliens • Matrice d’adjacence d’un graphe du Web : • Visuellement, c’est joli… • …et les sites apparaissent clairement Université Montpellier II - LIRMM

  4. Exemple Université Montpellier II - LIRMM

  5. Plan du mémoire • Structures du Web • Qu’est-ce que le Web ? • Crawlers, moteurs, tailles du Web • Graphes et structures du Web • Les PageRanks • Chaînes de Markov • PageRank : définitions, interprétations, limites • BackRank : une amélioration possible de PageRank • Décomposition fine du PageRank : FlowRank et BlowRank Université Montpellier II - LIRMM

  6. Plan de l’exposé • PageRank • Systèmes de classement • Principe du modèle • Facteur d’amortissement • Problème des feuilles • BackRank • PageRank • BackRank • Motivation • Théorie : Back irréversible • Expérimentations • PageRank • BackRank Université Montpellier II - LIRMM

  7. PageRank Théorie & pratique Université Montpellier II - LIRMM

  8. S’orienter dans le Web • Web : masse «  infinie » d’information • Besoin d’outils de recherche • Manuels : annuaires ! capacité de traitement limité • Automatiques : moteurs ! nécessité de trier les données Université Montpellier II - LIRMM

  9. Méthodes de tri • Importance sémantique : pertinence • Indexation • Basée sur une requête (mots-clés) • Manipulable (spamming : abus de mots-clés) • Importance structurelle : PR, HITS… • Basée sur les hyperliens • Indépendante du contenu • Méthodes hybrides : TSPR , OPIC… • Autres ? Problème du secret industriel Université Montpellier II - LIRMM

  10. PageRank • Introduit en 1998 avec Google • L’importance P d’une page vient de l’importance des pages qui la réfèrent • Si G=(V,E) est un graphe du Web (V : pages Web ; E : hyperliens) Université Montpellier II - LIRMM

  11. Une double interprétation • Distribution d’importance (flot) • Chaque page possède une certaine importance P(v) • L’importance est diffusée par les hyperliens • Modèle du surfeur aléatoire • Le surfeur aléatoire parcourt sans cesse le Web en cliquant au hasard • En choisissant , P est la probabilité de présence asymptotique (si elle existe) PageRank des pages qui pointent sur v PageRank d’une page v Université Montpellier II - LIRMM

  12. Cas de convergence : théorème de Perron-Frobenius (1912) • On suppose G fortement connexe apériodique • Soit A la matrice stochastique associée • Alors P est solution de • Convergence vers le point fixe P par itérations successives : • Interprétation : chaîne de Markov Université Montpellier II - LIRMM

  13. Limites du modèle idéalde PageRank ; facteur zap • G n’est jamais fortement connexe • La convergence du calcul est très lente • Modélisation : un surfeur réel ne fait pas que suivre des liens ! Introduction d’un zap : possibilité de ne pas suivre un hyperlien et de zapper Université Montpellier II - LIRMM

  14. Équation d’amortissement • Propagation amortie par d (d=0,85) • Z est la distribution du zap •  est la probabilité effective de zapper • Z est une source de flot Université Montpellier II - LIRMM

  15. Propagation du PageRankavec zap PageRank amorti des pages qui pointent sur v PageRank de zap PageRank d’une page v Université Montpellier II - LIRMM

  16. Les pages sans lien (feuilles) • Non gérées par le modèle, même avec zap • Processus mal défini • Pertes de flot ! nécessité de • Soit renormaliser • Soit travailler à source constante de flot • Le zap effectif est mal contrôlé : si on veut , alors >(1-d) Université Montpellier II - LIRMM

  17. Les pages sans lien (suite) :problème du « remplumage » • Les feuilles ne servent à rien • On les enlève donc pour le calcul… • … et on les remet après convergence • Problème : PageRank sur le graphe effeuillé  PageRank sur le graphe entier Université Montpellier II - LIRMM

  18. BackRank Prise en charge des pages sans lien Université Montpellier II - LIRMM

  19. Modéliser la touche Back :Concept et limitations • On veut pouvoir revenir en arrière dans le processus stochastique • Si PageRank modélise un surfeur réel, la touche Back est une amélioration • La touche Back gère les pages sans lien • On travaille maintenant sur un processus de Markov avec mémoire • Problème de la taille sur des gros graphes Université Montpellier II - LIRMM

  20. Notre modèle : Back irréversible • La touche Back a l’importance d’un lien • Mémoire minimale : dernière page visitée • 2 Back ne peuvent être consécutifs Université Montpellier II - LIRMM

  21. Formalisation • Phl(q,p) est la probabilité d’être en p en venant de q par un hyperlien • Pib(p) est la probabilité d’être en p grâce à la touche Back (historique vierge) • Phl(q,p) ne dépend pas du sommet d’arrivée p, et sera appelé Phl(q) Université Montpellier II - LIRMM

  22. Équations du Back irréversible Université Montpellier II - LIRMM

  23. Incorporation du zap • Le zap est facile à prendre en compte s’il désactive la touche Back • Attention si Z contient des feuilles Université Montpellier II - LIRMM

  24. Algorithme pratique : BackRank • Propagation/Convergence • Reconstruction Université Montpellier II - LIRMM

  25. Propagation de BackRank Back-attractivité de v Phl amorti des pages qui pointent sur v Phl d’une page v PageRank de zap Université Montpellier II - LIRMM

  26. Importance de  • Donne un classement différent ! modèle plus réaliste ? • Les feuilles n’ont pas de Phl… • …mais le PageRank obtenu est sur G entier ! • Convergence plus rapide (Gauss-Seidel) Université Montpellier II - LIRMM

  27. Résultats expérimentaux • Graphes de travail • crawls de .fr, .uk, .it et Web entre 2001 et 2004 • 8.1, 18.5, 41.3 et 118 millions de sommets • PageRank vs BackRank • Zap : • d=0,85 • Distribution uniforme sur les pages avec lien Université Montpellier II - LIRMM

  28. Université Montpellier II - LIRMM

  29. Chevauchement Chevauchement : 0% Chevauchement : 100% Chevauchement : 60% Université Montpellier II - LIRMM

  30. Différence quantitativeentre PageRank et BackRank Université Montpellier II - LIRMM

  31. Convergences comparées Université Montpellier II - LIRMM

  32. Futurs travaux • Expérimentations de BackRank à grande échelle • Expérimentations de FlowRank et BlowRank, algorithmes de classement distribué de PageRank • Autre sujet de recherche : pair-à-pair Université Montpellier II - LIRMM

  33. Publications Université Montpellier II - LIRMM

  34. FIN Université Montpellier II - LIRMM

  35. Influence du facteur d’amortissement sur le chevauchement Université Montpellier II - LIRMM

  36. Décomposition du PageRank PageRank sortant externe PageRank entrant externe Diffusion à l’intérieur du site PageRank sortant de zap (dissipation) PageRank de zap (induction) Université Montpellier II - LIRMM

  37. Équations du PageRankexterne Université Montpellier II - LIRMM

  38. Amplification du PageRankd’un site Université Montpellier II - LIRMM

  39. Amplification du PageRankd’une page d’un site Université Montpellier II - LIRMM

  40. Université Montpellier II - LIRMM

  41. Université Montpellier II - LIRMM

  42. Propagation du PageRank Retour Université Montpellier II - LIRMM

  43. Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

  44. Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

  45. Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

  46. Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

  47. Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

  48. Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

  49. Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

  50. Interprétation : surfeur aléatoire Université Montpellier II - LIRMM

More Related