Le cloaking consiste à présenter des contenus différents d’une page web aux moteurs de recherche et aux internautes.

Le cloaking est une technique SEO black hat. — Peut-on gaver le robot avec n’importe quel contenu, sans que l’internaute le voie ?

Le but de cette pratique est généralement d’optimiser le positionnement d’un site dans les résultats de recherche en trompant Google.

Quelles sont les différentes techniques de cloaking ?

Le cloaking selon Nicolas Jean, le précurseur de la technique en France.

Le texte invisible est la « technique » la plus ancienne. Elle vise à mettre en ligne, sur la page, un pavé de texte consciencieusement optimisé de la même couleur que le fond. Les internautes ne le voient pas, mais le robot le prend en compte. Une variante consiste à positionner le texte « hors écran » via le CSS, à le positionner derrière une image ou à le rendre invisible à l’aide d’une balise hidden par exemple.

Le cloaking sur user agent se base sur une technique côté serveur qui inspecte l’en-tête User-Agent de la requête HTTP pour déterminer le type d’agent utilisateur qui effectue la requête (par exemple, un navigateur web ou un robot d’indexation). Selon cette identification, le serveur décide de la réponse à fournir.

Le cloaking basé sur l’IP implique de servir différents contenus ou versions d’un site web en fonction de l’adresse IP du visiteur. Cette technique, utilisée pour distinguer les robots des moteurs de recherche des utilisateurs réels, est plus fiable que le cloaking sur user-agent.

Le cloaking sur l’hôte (host) vise à proposer un contenu différent selon le serveur via lequel le client se connecte. On repère les serveurs de Google et on met ainsi un ligne un contenu spécifique délivré spécialement pour le robot.

Le cloaking via Javascript exploite la difficulté qu’a le robot à interpréter le JS. Il permet de proposer à l’utilisateur un contenu décodé par le navigateur, tandis que le bot se contente d’une version simplifiée (ou, à l’ancienne, encaisse une version suroptimisée). Ce mode est généralement privilégié pour l’obfuscation de liens.

Le cloaking sur referer s’appuie sur cet l’en-tête HTTP_referer pour proposer telle ou telle version d’une page.

Il existe enfin d’autres techniques, dérivées de celles exposées (cloaking sur l’en-tête HTTP Accept-Langage…) ou plus originales.

Pourquoi cloaker des pages ou des sites web entiers ?

Dans les années 2000, il s’agissait de proposer discrètement au robot des contenus ultra-optimisés, inutiles pour l’internaute, que l’on préférait gaver de CTA divers et variés. Aujourd’hui, cette optique est quasiment abandonnée par les référenceurs black hat, les utilisations sont plus spécifiques.

Les principaux utilisateurs du cloaking sont les sites web dont la rentabilité est assurée par l’affiliation. Google ne les aime pas beaucoup, jugeant qu’ils n’apportent pas d’information intéressante. Les éditeurs cherchent donc à cacher les liens et widgets d’affiliation au robot.

D’autres, plutôt mal intentionnés à l’égard de collègues, font croire à ces derniers qu’ils ont mis en place des liens vers leurs sites web, alors que ces liens ne sont pas accessibles aux robots. Oui, la méfiance est de mise avec certains partenaires !

Que pense Google du cloaking ?

Selon notre robot préféré, la plupart du temps, c’est clairement du spam éhonté. Pas de débat, s’il vous attrape, vous êtes pénalisé !

Cependant, certaines applications restent légitimes à ses yeux, pourvu qu’elles rendent service à l’internaute. Certains parlent alors de cloaking white hat. En fait, les techniques qui rentrent dans ce cas sont celles qui visent à dissimuler certains contenus au robot (des liens par exemple, lors d’opérations de pagerank sculpting), à l’opposé des façons de lui faire gober du contenu inaccessible à l’internaute.

Comment puis-je vérifier qu’une page est cloakée ?

En cas de doute, il est parfois possible de détecter le fait qu’une page soit cloakée ; Le principe est d’essayer de se faire passer pour Google en la visitant, et de voir ce qui remonte. Exemples :

Utilisation d’un plugin Chrome pour changer de User-Agent
Accès au cache Google (la version en cache Google de la page, c’est à dire la version telle que la connaît Google)
Test de la page par les outils Google (PageSpeed Insights, Google Traduction, test des données structurées, test Mobile Friendly…), qui en fournissent la version telle que la « voient » les robots Google.

A noter que certaines techniques de dissimulation rendent parfois impossibles la détection. Tout dépend du talent du référenceur à la manœuvre !

Retrouvez les meilleures définitions dans le glossaire SEO de La Mandrette !

L’auteur : Laurent Peyrat dirige La Mandrette, qu’il a fondé en 2016. Il pratique et enseigne le SEO depuis plus de vingt ans. Titulaire d’un M2 E-business, il donne aussi plusieurs conférences chaque année.