Pagerank

Tout savoir sur le score de popularité des pages web selon Google !

La Pagerank original
Une illustration d’origine, la plus connue.

Qu’est-ce que le Pagerank ? Définition

Le PageRank est un algorithme développé par les fondateurs de Google, Larry Page et Sergey Brin, à la fin des années 1990. Il a été conçu pour mesurer l’importance relative des pages web et déterminer leur classement dans les résultats de recherche. Cet algorithme se base sur l’idée que plus une page est liée, via un lien hypertexte, par d’autres pages, plus elle est considérée comme populaire, plus elle est pertinente.

Les pages se voient ainsi dotées d’un score de popularité : leur Pagerank.

Le Pagerank se transmet de page en page, via les liens. On parle de link juice, ou « jus de lien », pour évoquer la circulation du PR.

Pour l’imaginer, Page s’est inspiré de la façon dont sont classées les publications scientifiques, grâce aux citations dont elles font l’objet. Pour Google, un lien est un vote, une recommandation.

Une autre représentation du fonctionnement du Pagerank est celle du surfeur aléatoire, qui va de lien en lien. S’il se retrouve souvent sur une même page, c’est que cette page est fortement liée, donc importante… donc pertinente.

Le Pagerank d’origine

Le brevet initial du PageRank, déposé et déposé en 1998 par Lawrence Page et attribué à l’Université de Stanford, est intitulé Method for node ranking in a linked database (Méthode de classement des nœuds dans une base de données liée). La formule mathématique à la base de ce brevet est la suivante :

[latex]PR(p_i) = \frac{1-d}{N} + d \sum_{p_j \in M(p_i)} \frac{PR (p_j)}{L(p_j)}[/latex]

En termes simples, cette formule signifie que le PageRank d’une page A (PR(A)) dépend de la somme des PageRank des pages qui pointent vers elle (T1, T2, …, Tn), divisée par le nombre de liens sortants de ces pages (L(T1), L(T2), …, L(Tn)). Le facteur « d » est un facteur d’amortissement, généralement compris entre 0,85 et 0,9, qui empêche le PageRank de diverger.

Ce PR fonctionne : il est bien à l’origine du succès de Google, construit sur le bouche à oreille en raison des résultats qu’il donnait, bien meilleurs que ceux des autres robots (Altavista, Lycos…).

Il a cependant un grave défaut : il est extrêmement sensible à la triche. Les référenceurs black hat ont vite compris son intérêt et généré artificiellement des dizaines de milliers de liens pour valoriser leurs pages, pas forcément les plus intéressantes pour l’utilisateur.

Les évolutions

Certaines évolution du PR sont restées secrètes, d’autre ont fait l’objet de brevets. Sylvain Peyronnet en donne un aperçu en 2021, en compagnie de Frédéric Bobet (Doeurf) :

Pagerank et conséquences sur le linking

Les améliorations les plus importantes sont décrites dans les paragraphes suivants.

Le topic-sensitive Pagerank

Le Pagerank d’origine traite de la même manière les liens entre deux pages traitant du même sujet et deux pages de même thématique. En 2002, Taher Haveliwala publie Topic-Sensitive Pagerank, qui ajoute une dimension thématique au PR.

Schéma tu Tpic-Sensitive Pagerank
Les schéma d’origine du Topic-Sensitive Pagerank

Les liens de confiance

En 2006, le brevet Producing a ranking for pages using distances in a web-link graph cherche à améliorer encore le Pagerank. Une liste de « sites de confiance » est définie, ce sont les « sites racines ». Les autres pages sont classées selon la distance qui les sépare des sites racine.

Le Pagerank selon l'autorité des sites web
La « confiance » se transmet par les liens.

Il est probable que les sites officiels (gouvernementaux), ceux des universités et des grands médias font partie de la liste de base, qui est certainement en constante évolution.

Le surfeur raisonnable

Après avoir (probablement) inclus la thématique des pages et la distance à un pool de sites définis comme étant « de confiance » à son algorithme, Google l’affine encore, en 2010, avec le remplacement du surfeur aléatoire par le surfeur raisonnable, que l’on connaît via le brevet Ranking documents based on user behavior and/or feature data. Dans une page, les liens n’ont plus la même valeur selon leur visibilité dans la page.

Surfeur raisonnable : le nouveau Pagerank
Le surfeur raisonnable réfléchit un peu avant de suivre un lien.

Si l’on ne connaît pas les pondérations exactes, on est certain, par exemple, qu’un lien situé en début de texte transmet beaucoup plus de Pagerank qu’un lien footer. Un lien valorisé (position dans une liste, lien texte ou lien image, couleur, ancre, etc.) transmet plus de Pagerank qu’un lien discret.

Au brevet de 2010 s’ajoute celui de 2016, qui va plus loin et inclut dans la pondération des liens une probabilité plus exacte qu’il soit cliqué.

Pagerank et SEO

Certaines dimensions du Pagerank sont secrètes et bien protégées par Google. Nous savons aussi que d’autres critères de classement des pages prennent de plus en plus d’importance.

L’algorithme est cependant toujours basé sur les liens et deux aspects majeurs du SEO restent :

  1. l’acquisition de backlinks de qualité pointant sur les pages du site que l’on cherche à valoriser.
  2. l’optimisation du linking interne.

Google Leaks : Le PageRank remplacé par un nouvel algorithme ?

La fuite récente de données liées à l’algorithme SEO de Google donne des indices supplémentaires sur l’évolution du PageRank au fil des années. D’après certaines informations repérées, Google a bien remplacé son algorithme de PageRank traditionnel par un algorithme à la logique légèrement différente, appelé PageRank_NS.

Le nom de cette fonction semble correspondre à la mise en application de l’algorithme Nearest Seed que nous vous présentions plus haut dans la page.

Ce changement montre bien que Google se fie davantage à la pertinence et à l’autorité de pages de départ triées sur le volet pour déterminer le PageRank des autres pages.

Pour le SEO, cela renforce l’importance des liens de haute qualité, provenant de sources pertinentes et autoritaires.

Une dimension thématique renforcée ?

Tout porte à croire que cette approche permet à Google de sélectionner ses pages de départ en fonction de leur thématique. Le PageRank des pages d’un site web rattaché à une thématique est probablement dépendant de sa proximité avec les pages d’autorité identifiées pour cette même thématique.

Pour aller plus loin : comprendre le fonctionnement du PageRank Nearest Seed

Cet algorithme emploie une méthode légèrement différente pour attribuer des scores aux différentes pages.

Le PageRank_NS reçoit un ensemble de pages à classer, toutes interconnectées par des liens hypertextes, ainsi que des « pages de départ » qui contiennent des liens vers ces pages. Google sélectionne probablement ces « pages de départ » arbitrairement, en fonction de leur autorité, de leur crédibilité, de la qualité de leur contenu ou encore de leur pertinence thématique.

Cet algorithme attribue ensuite une « longueur » spécifique à chaque lien. Plus un lien est « long », moins il est probable que l’utilisateur clique dessus, tandis qu’un lien « court » est plus susceptible d’être cliqué. Par exemple, un lien provenant d’une page avec de nombreux liens sortants sera plus long. Un lien caché en bas de page sera également plus long. Un lien visible en haut de page sera plus court (car plus susceptible d’être cliqué).

L’algorithme calcule ensuite les distances les plus courtes entre chaque « page de départ » et les autres pages en utilisant ajoutant les longueurs de ces liens. Sur cette base, il détermine un score de classement pour chaque page. Les pages plus proches des pages de départ reçoivent des scores plus élevés.

Ce système permet de produire un classement précis des pages web en se basant sur leur proximité avec des pages de départ spécifiques.

Deux facteurs sont donc à prendre en compte pour évaluer le PageRank_NS d’une page web :

  • Le nombre de liens à cliquer pour accéder à la page depuis une « page de départ »
  • La probabilité pour que l’utilisateur clique sur tous ces liens à la suite pour atteindre la page

Article vérifié le 20/12/2024

Retrouvez les meilleures définitions dans le glossaire SEO de La Mandrette !

Laurent Peyrat, expert SEO

L’auteur : Laurent Peyrat dirige La Mandrette, qu’il a fondé en 2016. Il pratique et enseigne le SEO depuis plus de vingt ans. Titulaire d’un M2 E-business, il donne aussi plusieurs conférences chaque année.