Pagerank

Tout savoir sur le score de popularité des pages web selon Google !

La Pagerank original
Une illustration d’origine, la plus connue.

Qu’est-ce que le Pagerank ? Définition

Le PageRank est un algorithme développé par les fondateurs de Google, Larry Page et Sergey Brin, à la fin des années 1990. Il a été conçu pour mesurer l’importance relative des pages web et déterminer leur classement dans les résultats de recherche. Cet algorithme se base sur l’idée que plus une page est liée, via un lien hypertexte, par d’autres pages, plus elle est considérée comme populaire, plus elle est pertinente.

Les pages se voient ainsi dotées d’un score de popularité : leur Pagerank.

Le Pagerank se transmet de page en page, via les liens. On parle de link juice, ou « jus de lien », pour évoquer la circulation du PR.

Pour l’imaginer, Page s’est inspiré de la façon dont sont classées les publications scientifiques, grâce aux citations dont elles font l’objet. Pour Google, un lien est un vote, une recommandation.

Une autre représentation du fonctionnement du Pagerank est celle du surfeur aléatoire, qui va de lien en lien. S’il se retrouve souvent sur une même page, c’est que cette page est fortement liée, donc importante… donc pertinente.

Le Pagerank d’origine

Le brevet initial du PageRank, déposé et déposé en 1998 par Lawrence Page et attribué à l’Université de Stanford, est intitulé Method for node ranking in a linked database (Méthode de classement des nœuds dans une base de données liée). La formule mathématique à la base de ce brevet est la suivante :

PR(p_i) = \frac{1-d}{N} + d \sum_{p_j \in M(p_i)} \frac{PR (p_j)}{L(p_j)}

En termes simples, cette formule signifie que le PageRank d’une page A (PR(A)) dépend de la somme des PageRank des pages qui pointent vers elle (T1, T2, …, Tn), divisée par le nombre de liens sortants de ces pages (L(T1), L(T2), …, L(Tn)). Le facteur « d » est un facteur d’amortissement, généralement compris entre 0,85 et 0,9, qui empêche le PageRank de diverger.

Ce PR fonctionne : il est bien à l’origine du succès de Google, construit sur le bouche à oreille en raison des résultats qu’il donnait, bien meilleurs que ceux des autres robots (Altavista, Lycos…).

Il a cependant un grave défaut : il est extrêmement sensible à la triche. Les référenceurs black hat ont vite compris son intérêt et généré artificiellement des dizaines de milliers de liens pour valoriser leurs pages, pas forcément les plus intéressantes pour l’utilisateur.

Les évolutions

Certaines évolution du PR sont restées secrètes, d’autre ont fait l’objet de brevets. Sylvain Peyronnet en donne un aperçu en 2021, en compagnie de Frédéric Bobet (Doeurf) :

Pagerank et conséquences sur le linking

Les améliorations les plus importantes sont décrites dans les paragraphes suivants.

Le topic-sensitive Pagerank

Le Pagerank d’origine traite de la même manière les liens entre deux pages traitant du même sujet et deux pages de même thématique. En 2002, Taher Haveliwala publie Topic-Sensitive Pagerank, qui ajoute une dimension thématique au PR.

Schéma tu Tpic-Sensitive Pagerank
Les schéma d’origine du Topic-Sensitive Pagerank

Les liens de confiance

En 2006, le brevet Producing a ranking for pages using distances in a web-link graph cherche à améliorer encore le Pagerank. Une liste de « sites de confiance » est définie, ce sont les « sites racines ». Les autres pages sont classées selon la distance qui les sépare des sites racine.

Le Pagerank selon l'autorité des sites web
La « confiance » se transmet par les liens.

Il est probable que les sites officiels (gouvernementaux), ceux des universités et des grands médias font partie de la liste de base, qui est certainement en constante évolution.

Le surfeur raisonnable

Après avoir (probablement) inclus la thématique des pages et la distance à un pool de sites définis comme étant « de confiance » à son algorithme, Google l’affine encore, en 2010, avec le remplacement du surfeur aléatoire par le surfeur raisonnable, que l’on connaît via le brevet Ranking documents based on user behavior and/or feature data. Dans une page, les liens n’ont plus la même valeur selon leur visibilité dans la page.

Surfeur raisonnable : le nouveau Pagerank
Le surfeur raisonnable réfléchit un peu avant de suivre un lien.

Si l’on ne connaît pas les pondérations exactes, on est certain, par exemple, qu’un lien situé en début de texte transmet beaucoup plus de Pagerank qu’un lien footer. Un lien valorisé (position dans une liste, lien texte ou lien image, couleur, ancre, etc.) transmet plus de Pagerank qu’un lien discret.

Au brevet de 2010 s’ajoute celui de 2016, qui va plus loin et inclut dans la pondération des liens une probabilité plus exacte qu’il soit cliqué.

Pagerank et SEO

Certaines dimensions du Pagerank sont secrètes et bien protégées par Google. Nous savons aussi que d’autres critères de classement des pages prennent de plus en plus d’importance.

L’algorithme est cependant toujours basé sur les liens et deux aspects majeurs du SEO restent :

  1. l’acquisition de backlinks de qualité pointant sur les pages du site que l’on cherche à valoriser.
  2. l’optimisation du linking interne.

Retrouvez les meilleures définitions dans le glossaire SEO de La Mandrette !


Laurent Peyrat, expert SEOL’auteur : Laurent Peyrat dirige La Mandrette, qu’il a fondé en 2016. Il pratique et enseigne le SEO depuis plus de vingt ans. Titulaire d’un M2 E-business, il donne aussi plusieurs conférences chaque année.