SEO : Comprendre le crawl budget et l’indexation

14 mars 2017, révisé le 20 juin 2024

Un article paru en janvier sur le blog officiel de Google a mis un coup de projecteur sur la notion de « crawl budget ». Si ce contenu ne révèle pas en soit d’informations révolutionnaires, il a le mérite de présenter un axe d’optimisation fondamental dans toute stratégie SEO. Les consultants SEO de notre agence SEO Lyon vous explique tout »

Comment fonctionne
le crawl ?

Le crawl est indispensable au bon référencement de votre site

empirik-blog-seo-comprendre-crawl-budget-indexation-crawl

Crawl des robots sur les pages d’un site Internet

Les moteurs de recherche s’appuient sur des robots (également appelés bots, spiders, crawlers…) qui parcourent le web de site en site et de lien en lien et enregistrent le contenu des pages web dans l’index du moteur.

Cette phase de découverte de contenus est appelée le crawl. Du côté SEO, l’optimisation de l’indexation des contenus est une action fondamentale.

Que font les robots sur votre site ?

Le rôle d’un robot est de crawler chaque site Internet. Les Googlebot vont naviguer sur votre site pour analyser toutes les données disponibles. À noter que la homepage est souvent la plus crawlée par les robots, elle va donc faciliter la découverte des pages qui lui sont directement liées. Googlebot peut aussi suivre les liens externes pour découvrir les contenus du site. La homepage n’est donc pas la seule entrée pour les robots.

Les robots ne vont pas seulement répertorier les éléments visibles de vos pages comme les balises métas ou les images par exemple. Ils vont s’intéresser à des informations invisibles à l’œil nu afin de hiérarchiser le contenu et comprendre l’architecture de votre site Internet tout en analysant les liens entre vos pages.

Les robots scannent chaque page et en hébergent une copie sur les serveurs de Google. Afin de conserver ces copies à jour, les robots passent des centaines de fois sur votre site pour prendre compte les ajustements de vos contenus, en fonction du crawl budget.

Les enjeux du crawl budget

Le crawl budget (également connu sous le nom de budget d’exploration pour les amoureux de la langue française) correspond au temps alloué par Google pour explorer votre site.

Même si Google s’appuie sur une armée de robots qui ne travaille pas 35 heures, ces robots n’ont qu’un temps limité pour crawler un site.

Un des enjeux forts d’une action de référencement naturel sera d’augmenter le crawl budget. Plus votre crawl budget sera élevé, plus vos nouveaux contenus seront rapidement pris en compte et plus vous aurez de chances de remonter dans les premiers résultats (même s’il n’y a pas de lien de causalité entre crawl budget et positionnement. Un crawl budget qui augmente matérialise le respect de critères techniques et l’ajout régulier de nouveaux contenus, 2 des piliers d’une action SEO).

L’idée est donc de disposer d’une structure technique et éditoriale qui facilite le travail de crawl des robots :

  • Optimiser la vitesse d’exploration, notamment de temps de chargement des pages. Effectivement, la durée de chargement des contenus et le nombre de pages analysées sont très liés. Si ce délai augmente, le nombre de pages crawlées baisse, et inversement.
  • Augmenter la fréquence de mise à jour de vos pages. Plus vous créez et ajustez vos contenus, plus vous incitez les robots à venir sur votre site.
  • Améliorer la structure de votre site et son architecture. Une arborescence simple et un maillage interne optimisé facilitera la navigation des robots qui iront plus vite.

En résumé, plus vous faciliterez le travail de crawl des robots, plus ils vous le rendront bien en revenant plus souvent sur votre site et en améliorant votre positionnement !

Comment analyser le crawl ?

Analyser son crawl sur Google Search Console

Google Search Console vous donne un bref aperçu de la perception que Google a de votre site. En effet, vous pouvez vous rendre sur les sections Index Google ou bien Exploration pour prendre connaissance des erreurs de crawl ou encore des erreurs 404 de votre site.

Google Search Console – Empirik, mars 2017

En revanche, il est difficile de mener une analyse complète de l’efficacité de votre site à partir de Google Search Console. En effet, Google fournit un rapport global mais n’offre aucune analyse micro de ces statistiques pour s’assurer que les contenus les plus stratégiques soient bien crawlés. Voilà pourquoi il est indispensable de s’appuyer sur d’autres sources d’informations.

La nécessité d’analyser les logs pour plus de performance

Le fichier log est un journal de bord retraçant l’ensemble des événements qui ont pu impacter le système informatique de votre site. Tous les accès d’un site Internet sont répertoriés, dès lors qu’un internaute visite vos pages, les informations de son passage sont collectées dans ce fichier.

Souvent, les robots se focalisent trop sur des contenus peu stratégiques ou sur des éléments qui posent problème pour l’éditeur d’un site. Par exemple, les sites qui utilisent des moteurs à facette (pages profondes, contenu dupliqué ou très similaire, quantité de pages très importante…) vont à l’encontre de l’optimisation du crawl budget car les robots vont potentiellement parcourir des milliers de pages dupliquées ou ayant un faible intérêt SEO.

En analysant les logs, il est possible de déterminer clairement les actions correctives à mettre en place pour maîtriser au mieux le crawl de vos pages.

Comment améliorer l’indexation de ses pages internet ?

  • Travaillez l’architecture de votre site (en silo et par thématique) et les niveaux de profondeur des contenus clés. Pour information, N0 correspond à la homepage. Plus un contenu stratégique est proche de N0 mieux c’est, car il est conseillé de réduire le nombre de clics pour faciliter la navigation des internautes.
  • Améliorez le maillage interne et externe tout en privilégiant les contenus clés de votre site afin de multiplier les points d’entrée vers chaque page. Perfectionnez les fonctionnalités de votre maillage, notamment de pagination de votre site pour réduire le niveau de profondeur des contenus.
  • Favorisez le crawl des contenus à forte valeur ajoutée et éliminez au maximum les pages qui ont un faible niveau de qualité (contenu dupliqué, pages de listes…).
  • Pensez à votre stratégie éditoriale et appuyez-vous sur une animation régulière de votre site à travers divers contenus pour alimenter et développer l’intérêt du site.
  • Optimisez le temps de chargement de votre site pour accélérer le travail des robots.

Temps de chargement d’une page vs exploration – Google Search Console

  • Enfin, il est possible de bloquer le suivi des liens par les robots. Le Robots.txt interdit l’indexation (instruction Disallow) mais pas le crawl, il faut donc l’encrypter ou le spécifier à travers l’attribut rel= « nofollow » sur un lien.

Le crawl et l’indexation sont donc deux notions étroitement liées et au cœur du référencement. Vous pouvez analyser vous-même votre site grâce à des outils dédiés comme Botify, OnCrawl ou encore Screaming Frog. Afin d’interpréter les données de votre site, vous pouvez également vous appuyer sur des outils d’analyse de log comme SEO Log File

Ceci vous permettra de bénéficier d’une vision plus claire de l’architecture de votre site et des améliorations à prévoir pour optimiser un canal d’acquisition essentiel : le SEO. Analyser.

Venez découvrir nos offres SEO !

Ces articles peuvent vous intéresser

  • Data
  • SEA
  • SEO

Comment estimer la valeur d’un site Internet dans le cadre de la cession d’une entreprise ?

  • Data
  • SEA

Fin des cookies tiers sur Google Chrome : quels impacts et quelles solutions pour mesurer le ROI des investissements publicitaires digitaux ?