Que sont les robots d'indexation (Web Crawlers) ?

Pour que votre site web apparaisse dans les résultats de recherche, Google (ainsi que d'autres moteurs de recherche comme Bing, Yandex, Baidu, Naver, Yahoo ou DuckDuckGo) utilisent des robots d'indexation pour naviguer sur le site et découvrir ses pages web.

Différents moteurs de recherche ont différentes parts de marché selon les pays.

Dans ce guide, nous couvrons Google, qui est le plus grand moteur de recherche dans la plupart des pays. Cela dit, vous pourriez vouloir vérifier d'autres moteurs de recherche et leurs directives, surtout si vos clients cibles se trouvent en Chine, Russie, Japon ou Corée du Sud.

Bien qu'il existe quelques différences en matière de classement (Ranking) et de rendu (Rendering), la plupart des moteurs de recherche fonctionnent de manière très similaire pour l'exploration (Crawling) et l'indexation (Indexing).

Les robots d'indexation sont un type de bot qui imitent les utilisateurs et naviguent à travers les liens trouvés sur les sites web pour indexer les pages. Les robots d'indexation s'identifient en utilisant des user-agents personnalisés. Google dispose de plusieurs robots d'indexation, mais ceux qui sont le plus souvent utilisés sont Googlebot Desktop et Googlebot Smartphone.

Comment fonctionne Googlebot ?

Diagramme de flux Googlebot

Le parcours effectué par Googlebot pour indexer les pages web

Un aperçu général du processus peut être le suivant :

  • Trouver des URLs : Google obtient des URLs de nombreuses sources, notamment Google Search Console, les liens entre sites web, ou les sitemaps XML.
  • Ajouter à la file d'attente d'exploration : Ces URLs sont ajoutées à la file d'attente d'exploration (Crawl Queue) pour être traitées par Googlebot. Les URLs dans la file d'attente y restent généralement quelques secondes, mais cela peut aller jusqu'à quelques jours selon les cas, surtout si les pages doivent être rendues, indexées ou - si l'URL est déjà indexée - rafraîchies. Les pages entrent ensuite dans la file d'attente de rendu (Render Queue).
  • Requête HTTP : Le robot effectue une requête HTTP pour obtenir les en-têtes et agit en fonction du code d'état retourné :
    • 200 : Il explore et analyse le HTML.
    • 30X : Il suit les redirections.
    • 40X : Il note l'erreur et ne charge pas le HTML.
    • 50X : Il peut revenir plus tard pour vérifier si le code d'état a changé.
  • File d'attente de rendu : Les différents services et composants du système de recherche traitent le HTML et analysent le contenu. Si la page contient du contenu JavaScript côté client, les URLs peuvent être ajoutées à une file d'attente de rendu. La file d'attente de rendu est plus coûteuse pour Google car elle nécessite plus de ressources pour rendre le JavaScript, et donc les URLs rendues représentent un pourcentage plus faible du total des pages sur internet. Certains autres moteurs de recherche pourraient ne pas avoir la même capacité de rendu que Google, et c'est là que Next.js peut vous aider dans votre stratégie de rendu.
  • Prêt à être indexé : Si tous les critères sont remplis, les pages peuvent être éligibles pour être indexées et apparaître dans les résultats de recherche.

Dans les prochaines sections, nous plongerons en détail dans chacun des principaux composants des processus d'un système de recherche : l'exploration et l'indexation, et le rendu et le classement.

Pour aller plus loin