« Back to Glossary Index

Taux de crawl - google

Googlebot est un robot de recherche (également connu sous le nom de spider – l’araignée –  ou webcrawler) qui rassemble les informations des pages web utilisées pour fournir les pages de résultats du moteur de recherche Google (SERP).

Googlebot collecte des documents sur le web pour construire l’index de recherche de Google. En rassemblant constamment des documents, le logiciel découvre de nouvelles pages et des mises à jour de pages existantes. Googlebot utilise une conception répartie sur plusieurs ordinateurs afin de pouvoir se développer comme le fait le web.

Le webcrawler utilise des algorithmes pour déterminer les sites à parcourir, les taux de navigation et le nombre de pages à récupérer. Googlebot commence par une liste générée à partir des sessions précédentes. Cette liste est ensuite complétée par les sitemaps fournis par les webmasters. Le logiciel explore tous les éléments liés dans les pages web qu’il parcourt, notant les nouveaux sites, les mises à jour de sites et les liens morts. Les informations recueillies sont utilisées pour mettre à jour l’index du web de Google.

Googlebot crée un index dans les limites fixées par les webmasters dans leurs fichiers robots.txt. Si un webmaster souhaite garder des pages cachées de la recherche Google, par exemple, il peut bloquer Googlebot dans un fichier robots.txt situé dans le dossier de premier niveau du site. Pour empêcher Googlebot de suivre les liens d’une page donnée d’un site, il peut inclure la balise meta nofollow ; pour empêcher le bot de suivre les liens individuels, le webmaster peut ajouter rel= »nofollow » aux liens eux-mêmes.

Le webmestre d’un site peut détecter les visites toutes les quelques secondes à partir des ordinateurs sur google.com, en affichant l’agent utilisateur Googlebot. En général, Google essaie d’indexer le plus possible un site sans saturer la bande passante du site. Si un webmaster trouve que Googlebot utilise trop de bande passante, il peut fixer un taux sur la page d’accueil de la console de recherche de Google qui restera en vigueur pendant 90 jours.

« Retour à l'index du glossaire