Où placer le fichier robots.txt ?

Le fichier robots.txt doit toujours être placé à la racine du domaine : https://votresite.com/robots.txt. Il ne peut pas être dans un sous-dossier. Si votre site utilise plusieurs sous-domaines, chaque sous-domaine doit avoir son propre fichier robots.txt .

Disallow: / bloque-t-il vraiment tout ?

La directive Disallow: / interdit à un crawler d'explorer toutes les pages du site. Cependant, Googlebot peut quand même afficher l'URL dans les résultats s'il la découvre via un lien externe, sans en connaître le contenu. Pour empêcher l'indexation, utilisez plutôt la balise meta robots noindex .

Comment autoriser un seul moteur de recherche ?

Utilisez des blocs User-Agent séparés. Par exemple : User-agent: Googlebot suivi de Allow: / autorise Google, puis User-agent: * suivi de Disallow: / bloque tous les autres crawlers . L'ordre des blocs n'a pas d'importance, chaque robot s'applique les règles de son bloc.

La directive Sitemap est-elle obligatoire ?

Non, la directive Sitemap est optionnelle mais fortement recommandée. Elle indique aux moteurs de recherche où trouver votre sitemap XML , ce qui accélère la découverte et l'indexation de vos pages. Vous pouvez inclure plusieurs URLs de sitemap dans un même fichier robots.txt .

Générateur Robots.txt 2026 | Créer votre fichier robots.txt en ligne

Q: Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine d'un site web qui indique aux crawlers (robots d'exploration) quelles pages ou sections peuvent être explorées. Il suit le Robots Exclusion Protocol (REP) . Ce fichier est lu avant tout par Googlebot , Bing et les autres moteurs de recherche.

Robots.txt generator : configurer le crawl de votre site web

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre domaine (https://votresite.com/robots.txt) qui indique aux robots d'exploration (crawlers) quelles pages ou sections de votre site peuvent être parcourues. Il suit le Robots Exclusion Protocol (REP), formalisé par la RFC 9309 (IETF, 2022).

Tous les moteurs de recherche respectent ce protocole : Googlebot, Bingbot, Yandex, DuckDuckBot, et la plupart des crawlers commerciaux. Le fichier robots.txt est le premier fichier qu'un crawler consulte avant d'explorer votre site. Il est lu à chaque session de crawl et mis en cache pour une durée variable selon le moteur.

RFC 9309

la norme IETF qui formalise le Robots Exclusion Protocol (publiée en septembre 2022)

Syntaxe du fichier robots.txt

User-agent: * Disallow: /admin/ Allow: /admin/public/ Sitemap: https://site.com/sitemap.xml

Le fichier robots.txt est composé de blocs, chacun commençant par une directive User-agent suivie d'une ou plusieurs directives Disallow et/ou Allow. La directive User-agent: * s'applique à tous les crawlers. Les directives sont évaluées de la plus spécifique à la moins spécifique (longest match).

Directives robots.txt

User-agent

Identifie le crawler ciblé

Disallow

Interdit l'exploration d'un chemin

Allow

Autorise un sous-chemin (override Disallow)

Sitemap

Indique l'URL du sitemap XML

Crawl-delay

Délai entre les requêtes (non standard)

Source : RFC 9309, Google Search Central

Disallow vs noindex : quelle différence ?

Disallow (robots.txt)

Bloque le crawl

Le crawler ne visite pas la page

noindex (meta robots)

Bloque l'indexation

La page est visitée mais pas indexée

La directive Disallow empêche le crawler de visiter une page, mais elle n'empêche pas son indexation si d'autres sources (liens externes) pointent vers elle. Google peut afficher l'URL dans ses résultats sans en connaître le contenu. Pour empêcher véritablement l'indexation, utilisez la balise <meta name="robots" content="noindex"> dans le HTML de la page.

Attention

Ne bloquez jamais vos fichiers CSS et JavaScript via robots.txt. Google a besoin de les charger pour effectuer le rendu de vos pages (rendering). Bloquer ces ressources peut dégrader votre indexation et votre positionnement.

Bonnes pratiques pour le robots.txt

Toujours inclure le Sitemap. La directive Sitemap accélère la découverte de vos pages par les moteurs de recherche. Utilisez une URL absolue.
Bloquer les pages inutiles. Les pages de résultats de recherche interne, les pages de filtres, les pages de pagination profonde et les zones d'administration n'ont généralement pas besoin d'être crawlées.
Un fichier par domaine. Chaque domaine et sous-domaine doit avoir son propre fichier robots.txt. Le fichier de www.site.com ne s'applique pas à blog.site.com.
Tester avec Google Search Console. L'outil "Inspection de l'URL" et l'outil "robots.txt Tester" permettent de vérifier que vos règles fonctionnent comme prévu.

Erreurs fréquentes à éviter

Bloquer tout par erreur. Disallow: / bloque l'intégralité de votre site. Vérifiez toujours vos règles avant de les déployer.
Confondre robots.txt et sécurité. Le robots.txt est un protocole de bonne volonté. Il n'empêche pas un crawler malveillant d'accéder à vos pages. Utilisez l'authentification pour protéger les contenus sensibles.
Oublier le slash final. Disallow: /admin bloque /admin, /admin/ et /admin-panel. Pour cibler uniquement le dossier admin, utilisez Disallow: /admin/.
Ne pas mettre à jour après une refonte. Un ancien robots.txt peut bloquer des pages importantes après une migration. Auditez votre fichier avec notre générateur de meta tags pour vérifier la cohérence SEO.

Sources et références

RFC 9309 - Robots Exclusion Protocol (IETF, 2022).
Google Search Central - robots.txt.
Bing Webmaster Tools - robots.txt.
MDN Web Docs - Robots.txt.

Générateur Robots.txt

Questions fréquentes