Robots.txt generator : configurer le crawl de votre site web
Qu'est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine de votre domaine (https://votresite.com/robots.txt) qui indique aux robots d'exploration (crawlers) quelles pages ou sections de votre site peuvent être parcourues. Il suit le Robots Exclusion Protocol (REP), formalisé par la RFC 9309 (IETF, 2022).
Tous les moteurs de recherche respectent ce protocole : Googlebot, Bingbot, Yandex, DuckDuckBot, et la plupart des crawlers commerciaux. Le fichier robots.txt est le premier fichier qu'un crawler consulte avant d'explorer votre site. Il est lu à chaque session de crawl et mis en cache pour une durée variable selon le moteur.
RFC 9309
la norme IETF qui formalise le Robots Exclusion Protocol (publiée en septembre 2022)
Syntaxe du fichier robots.txt
User-agent: * Disallow: /admin/ Allow: /admin/public/ Sitemap: https://site.com/sitemap.xml
Le fichier robots.txt est composé de blocs, chacun commençant par une directive User-agent suivie d'une ou plusieurs directives Disallow et/ou Allow. La directive User-agent: * s'applique à tous les crawlers. Les directives sont évaluées de la plus spécifique à la moins spécifique (longest match).
Directives robots.txt
User-agent Identifie le crawler ciblé
Disallow Interdit l'exploration d'un chemin
Allow Autorise un sous-chemin (override Disallow)
Sitemap Indique l'URL du sitemap XML
Crawl-delay Délai entre les requêtes (non standard)
Source : RFC 9309, Google Search Central
Disallow vs noindex : quelle différence ?
Disallow (robots.txt)
Bloque le crawl
Le crawler ne visite pas la page
noindex (meta robots)
Bloque l'indexation
La page est visitée mais pas indexée
La directive Disallow empêche le crawler de visiter une page, mais elle n'empêche pas son indexation si d'autres sources (liens externes) pointent vers elle. Google peut afficher l'URL dans ses résultats sans en connaître le contenu. Pour empêcher véritablement l'indexation, utilisez la balise <meta name="robots" content="noindex"> dans le HTML de la page.
Attention
Bonnes pratiques pour le robots.txt
- Toujours inclure le Sitemap. La directive
Sitemapaccélère la découverte de vos pages par les moteurs de recherche. Utilisez une URL absolue. - Bloquer les pages inutiles. Les pages de résultats de recherche interne, les pages de filtres, les pages de pagination profonde et les zones d'administration n'ont généralement pas besoin d'être crawlées.
- Un fichier par domaine. Chaque domaine et sous-domaine doit avoir son propre fichier robots.txt. Le fichier de
www.site.comne s'applique pas àblog.site.com. - Tester avec Google Search Console. L'outil "Inspection de l'URL" et l'outil "robots.txt Tester" permettent de vérifier que vos règles fonctionnent comme prévu.
Erreurs fréquentes à éviter
- Bloquer tout par erreur.
Disallow: /bloque l'intégralité de votre site. Vérifiez toujours vos règles avant de les déployer. - Confondre robots.txt et sécurité. Le robots.txt est un protocole de bonne volonté. Il n'empêche pas un crawler malveillant d'accéder à vos pages. Utilisez l'authentification pour protéger les contenus sensibles.
- Oublier le slash final.
Disallow: /adminbloque/admin,/admin/et/admin-panel. Pour cibler uniquement le dossier admin, utilisezDisallow: /admin/. - Ne pas mettre à jour après une refonte. Un ancien robots.txt peut bloquer des pages importantes après une migration. Auditez votre fichier avec notre générateur de meta tags pour vérifier la cohérence SEO.