Systèmes de recherche
Les systèmes de recherche sont ce que l'on désigne généralement par moteurs de recherche (Google, Bing, DuckDuckGo, etc.). Ce sont des systèmes extrêmement complexes qui relèvent certains des plus grands défis technologiques de l'histoire.
Les systèmes de recherche ont quatre responsabilités principales :
- Exploration (Crawling) : le processus de parcours du Web et d'analyse du contenu de tous les sites. C'est une tâche colossale puisqu'il existe plus de 350 millions de domaines disponibles.
- Indexation : trouver des espaces pour stocker toutes les données collectées lors de l'exploration afin qu'elles puissent être consultées.
- Rendu (Rendering) : l'exécution des ressources sur la page, comme JavaScript, qui peuvent améliorer les fonctionnalités et enrichir le contenu du site. Ce processus ne se produit pas pour toutes les pages explorées et parfois il intervient avant que le contenu ne soit réellement indexé. Le rendu peut aussi avoir lieu après l'indexation s'il n'y a pas de ressources disponibles pour effectuer la tâche au moment de l'exploration.
- Classement (Ranking) : l'interrogation des données pour créer des pages de résultats pertinentes en fonction de la saisie utilisateur. C'est à ce niveau que les différents critères de classement sont appliqués par les moteurs de recherche pour fournir aux utilisateurs la meilleure réponse correspondant à leur intention.
Dans la section suivante, nous verrons plus précisément comment fonctionne Googlebot. Googlebot est le robot d'exploration de Google, la partie du système de recherche qui collecte toutes les informations nécessaires pour créer l'immense base de données de contenu servant à fournir les résultats de recherche.