Analyseur Robots.txt
Valide la syntaxe du robots.txt, vérifie l'accessibilité du sitemap, détecte les configurations de blocage de crawl erronées et fait une référence croisée des règles Disallow par rapport aux URL du sitemap.
Comment utiliser Analyseur Robots.txt
- 1Entrez l'URL ou le domaine de votre site Web.
- 2L'outil récupère automatiquement votre robots.txt et les sitemaps déclarés.
- 3Examinez les problèmes de syntaxe, les règles de crawl et la validité du sitemap.
- 4Vérifiez les conflits entre les règles Disallow et les URL du sitemap.
ZenovayAnalytics
Sachez ce que vos visiteurs font vraiment.
- Suivi des visiteurs en temps réel
- Vie privée d'abord, sans bandeau cookies
- Installé en deux minutes
Outils connexes
Analyseur de balises Meta
Analysez les balises meta de n'importe quelle page web. Vérifiez le titre, la description, Open Graph, les cartes Twitter et obtenez des recommandations SEO.Vérificateur Open Graph
Prévisualisez comment votre page apparaît lorsqu'elle est partagée sur Facebook, Twitter et LinkedIn. Vérifiez toutes les balises OG et Twitter Card.Vérificateur d'En-têtes HTTP
Inspectez les en-têtes de réponse HTTP de n'importe quelle URL. Vérifiez les en-têtes de sécurité, la mise en cache, le type de contenu, et bien plus.Validateur Robots.txt
Validez et analysez votre fichier robots.txt. Vérifiez les règles, les sitemaps et les problèmes de crawl courants.Questions fréquemment posées
Que vérifie l'analyseur robots.txt ?▾
Il récupère votre robots.txt, valide la syntaxe, vérifie que les URL de sitemap déclarées sont accessibles, et fait une vérification croisée des règles Disallow par rapport aux URL de votre sitemap pour détecter les blocages accidentels de crawl. Il signale également les chemins sensibles divulgués dans les règles Disallow (l'effet Streisand).
Qu'est-ce que le conflit « Disallow: / bloque l'URL du sitemap » ?▾
Si votre robots.txt a Disallow: /blog/ mais que votre sitemap contient /blog/article-1, /blog/article-2, etc., Google voit ces URL dans le sitemap mais ne peut pas les crawler en raison de la règle Disallow. Ce conflit provoque des échecs d'indexation. L'analyseur détecte ces incohérences et montre quelles URL spécifiques sont bloquées.
Est-il problématique de ne pas avoir de robots.txt ?▾
Non. Un robots.txt manquant (réponse 404) est acceptable — les moteurs de recherche crawlent tout par défaut. Cela ne devient un problème que si vous devez restreindre des chemins spécifiques. Cependant, avoir un robots.txt avec une directive Sitemap: aide les moteurs de recherche à découvrir votre sitemap plus rapidement.
Pourquoi « Disallow: / » est-il une erreur critique ?▾
« Disallow: / » bloque tous les robots d'indexer n'importe quelle page de votre site. Il s'agit de la catastrophe SEO accidentelle la plus courante — un développeur pousse accidentellement un robots.txt de staging en production. Si Googlebot respecte cela, l'ensemble du site peut disparaître des résultats de recherche en quelques jours.
Qu'est-ce que l'effet Streisand pour robots.txt ?▾
Lister des chemins sensibles dans les règles Disallow (comme /admin, /backup, /private-api) dans robots.txt les rend publiquement découvrables — tout le monde peut lire votre robots.txt. Les attaquants consultent spécifiquement le robots.txt pour des chemins intéressants à explorer. Pour restreindre l'accès aux chemins sensibles, utilisez l'authentification au niveau du serveur plutôt que robots.txt.
Tous les robots respectent-ils robots.txt ?▾
Les principaux robots des moteurs de recherche (Googlebot, Bingbot, DuckDuckBot) respectent robots.txt. Cependant, les scrapers, les courtiers en données, les robots d'entraînement IA et les bots malveillants l'ignorent souvent totalement. robots.txt est une convention, pas un mécanisme de sécurité — ne l'utilisez jamais pour protéger du contenu sensible.
Qu'est-ce qu'un index de sitemap par rapport à un sitemap ?▾
Un index de sitemap est un fichier XML racine qui renvoie à plusieurs sitemaps individuels (utile pour les grands sites avec des milliers d'URL). Un sitemap XML ordinaire liste directement les URL de page. Cet outil détecte quel type votre site utilise et vérifie l'accessibilité pour les deux.