La balise canonical

Haro sur le contenu dupliqué !

La balise canonical évite la duplication de contenu
Tournons le dos à la duplication de contenu

Qu’est-ce que la balise « canonical » ? Définition

Insérée dans le <head> d’une page html, ou dans son en-tête http, la balise canonique permet d’indiquer aux robots, en cas de contenu dupliqué, la version originale de la page : son url canonique.

Elle a été créée en 2009, conjointement par Google, Yahoo! et Bing.

A quoi sert la balise canonical ?

Elle permet de clarifier, pour les robots, les url pointant sur des contenus similaires :

  • version mobile et version desktop d’une page
  • version amp et version originale d’un article
  • url générées par la navigation à facettes d’un e-commerce
  • url générées par des tags de tracking
  • copie d’un article sur un autre site web
  • etc.

Elle sert aussi, dans certains cas, à prévenir des dysfonctionnements du robot. C’est pour cela qu’il est recommandé que toutes les pages d’un site web incluent une balise canonical vers elles-mêmes.

Exemple en e-commerce :

La page https://www.majolieboutique.com/pulls/?color=vert est générée via une navigation à facettes ; tout son contenu est déjà présent dans la page https://www.majolieboutique.com/pulls/

Dans le <head> de cette page, il est possible d’inclure le code suivant :

<link rel="canonical" href="https://www.majolieboutique.com/pulls/">

Ce code indique aux robots l’adresse de la « vraie » page à indexer, afin d’éviter que les deux ne rentrent en concurrence à cause du duplicate content.

Exemple en cas de tracking

Imaginons que nous menions une campagne Facebook pour faire la promotion de la présente page (c’est vraiment fictif 🙂 ). Afin d’en mesurer les résultats, nous taguons ainsi les liens dans les annonces du réseau social : https://www.lamandrette.com/glossaire-canonical/?ref=facebook.com

Cette url est une duplication à 100 % de https://www.lamandrette.com/glossaire-canonical/. Le robot risque de se mélanger les pinceaux ! Je peux donc implémenter la balise suivante :

<link rel="canonical" href="https://www.lamandrette.com/glossaire-canonical/">

Google est alors censé savoir quelle est la « bonne » page.

Quels sont les inconvénients de la balise canonical ?

Résultats parfois hasardeux

Les cas où Google la prend mal en compte ne sont pas si rares. Le robot a parfois tendance à négliger l’url canonique pour lui préférer une autre version. Il le reconnaît d’ailleurs lui-même via la Google Search Console, qui ne se gêne pas pour indiquer :

Une balise canonical négligé par le robot
Argh !

Implémentation et maintenance

Des erreurs sur les balises canonical peuvent être catastrophiques en termes d’indexation des pages. Leur implémentation et leur maintenance sont donc des sujets importants. Impossible de faire l’impasse sur un monitoring fréquent et régulier !

Impact sur le budget crawl

Par exemple, les url générées par les systèmes à facettes se comptent fréquemment en centaines de milliers. Dans ce cas, Google ne peut pas faire l’économie de leur exploration, puis de leur traitement (prise en compte de la balise canonical), afin de gérer ensuite le duplicate content, ce qui mobilise encore des ressources machine qui serait mieux utilisées ailleurs.

Les analyses de logs montrent que, dans ce genre de cas, les visites du robot inutiles (sur des url non-indexables) ne sont pas du tout négligeables !

Impact sur la circulation du Pagerank interne

Toujours dans le cas d’une navigation à facettes, si les url avec les arguments sont accessibles via des liens <a href>, cela représente autant de PR perdu, même si les liens incluent l’attribut nofollow.

En conclusion, faut-il utiliser la balise canonical ?

Si on ne peut pas faire autrement, oui, il vaut mieux que des pages dupliquées embarquent une balise canonical plutôt que rien.

Cependant, l’expérience montre qu’elle ne marche pas à tous les coups et ne réduit pas suffisamment le crawl sur les url qui ne doivent pas être indexées. Il y a donc intérêt à toujours examiner si une solution technique plus robuste ne peut pas être intégrée à la place.

Retrouvez les meilleures définitions dans le glossaire SEO de La Mandrette !


Laurent Peyrat, expert SEOL’auteur : Laurent Peyrat dirige La Mandrette, qu’il a fondé en 2016. Il pratique et enseigne le SEO depuis plus de vingt ans. Titulaire d’un M2 E-business, il donne aussi plusieurs conférences chaque année.