Devenez incollable sur le budget crawl, ou budget d’exploration, de votre site web !

Le budget crawl, qu’est-ce c’est ?

En SEO, le budget crawl désigne le nombre d’URL que Googlebot peut et veut explorer sur un site web dans un laps de temps donné.

Tout savoir sur le budget crawl ! — Facilitons le travail du robot !

Maîtriser son budget crawl permet aux propriétaires de sites d’optimiser l’indexation de leur contenu, et ainsi d’améliorer leur positionnement dans les résultats de recherche.

Que dit Google à propos du budget crawl ?

Dans ses consignes aux webmasters, Google explique que le budget crawl, déterminé par la combinaison de la limite de capacité d’exploration et du besoin d’exploration, régit le temps et les ressources alloués à l’exploration des sites web. La limite de capacité d’exploration est calculée pour éviter de surcharger les serveurs tout en couvrant l’ensemble du contenu principal. Les facteurs tels que l’état d’exploration, les limites définies par les propriétaires de sites et les limites d’exploration de Google influencent cette valeur.

Le besoin d’exploration est, quant à lui, déterminé par la taille, la fréquence d’actualisation, la qualité des pages et la pertinence d’un site par rapport aux autres. Les facteurs clés incluent l’inventaire perçu, la popularité et l’obsolescence. En contrôlant ces éléments, les propriétaires de sites peuvent optimiser l’efficacité de l’exploration de Googlebot et maximiser leur visibilité en ligne.

Source : https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget?hl=fr

Comment augmenter le budget crawl alloué à un site web ?

On imagine facilement que le budget crawl d’un site vitrine de 12 pages n’est pas du même ordre de grandeur que celui d’un titre de la presse nationale ! Deux façons d’accroître, de manière significative, les visites du robot :

publier fréquemment (le robot viendra souvent vérifier la présence de nouveaux contenus) ;
augmenter le nombre de liens externes (backlinks) pointant sur le site web (un lien équivaut, en gros, à une recommandation).

Comment optimiser son budget crawl ?

L’idée, bien entendu, est que les passages du robot soient utiles (on parle bien de crawl utile). Pour cela, il s’agit de supprimer de son site web toutes les erreurs et incohérences que l’ont peut repérer, comme par exemple :

Vitesse d’affichage (webperformance) : moins le robot met de temps à attendre votre contenu, plus il peut explorer de pages.
Spider trap, ou assimilé : des cms mal paramétrés ont la fâcheuse habitude de générer des dizaines (voire centaines) de milliers d’url accessibles au robot et garanties inutiles pour le positionnement des pages (navigation à facettes, erreurs dans la gestion des paginations et les traductions, agendas, boucles de redirections, etc.). Le robot s’y perd et, pendant ce temps, ne s’intéresse pas aux pages que nous voulons valoriser.
Contenu dupliqué : il est inutile, voire contre-productif, que Googlebot voie plusieurs fois le même contenu.
Lien cassés, url en erreur, signaux incohérents (liens vers une url non indexable…) génèrent autant de crawl inutile.
Fichiers robots.txt ou sitemap.xml défaillants : s’ils sont mal conçus ou pas mis à jour, ils envoient le robot vers des url non souhaitées… autant de gaspillage du budget crawl.

Un audit SEO technique, assorti des recommandations appropriées, permet de repérer et de corriger les freins à l’exploration du robot.

Article mis à jour le 05/07/2024

Retrouvez les meilleures définitions dans le glossaire SEO de La Mandrette !

L’auteur : Laurent Peyrat dirige La Mandrette, qu’il a fondé en 2016. Il pratique et enseigne le SEO depuis plus de vingt ans. Titulaire d’un M2 E-business, il donne aussi plusieurs conférences chaque année.