25 % des top 1000 sites mondiaux bloquent GPTBot. Beaucoup sans le savoir. Voici comment décider intelligemment en 2026.
Ce qu’il faut retenir :
- Deux familles de bots IA existent : ceux qui entraînent les modèles et ceux qui récupèrent l’information en temps réel pour répondre à un utilisateur.
- Bloquer tous les bots IA coupe votre visibilité dans ChatGPT, Claude et Perplexity du jour au lendemain.
- Des plugins WordPress et Shopify ont activé ce blocage par défaut depuis 2024, sans avertissement explicite.
- Le bon réflexe en 2026 : bloquer le training, autoriser le retrieval, mesurer le résultat.
Et votre marque, ChatGPT la recommande-t-il ?
Mesurez votre présence et identifiez les marques citées à votre place. Sans carte bancaire.
Faut-il autoriser GPTBot, ClaudeBot et PerplexityBot dans robots.txt ?
Vous devez les traiter séparément. GPTBot et ClaudeBot servent à entraîner les modèles d’OpenAI et d’Anthropic. PerplexityBot indexe le web pour les réponses temps réel de Perplexity. La décision dépend de votre stratégie GEO et de votre tolérance à voir votre contenu utilisé sans contrepartie.
Voici la réponse rapide en tableau :
| Bot | Rôle | Recommandation 2026 |
|---|---|---|
| GPTBot (OpenAI) | Entraînement des modèles GPT | À bloquer si vous refusez le training gratuit |
| ClaudeBot (Anthropic) | Entraînement des modèles Claude | À bloquer pour la même raison |
| PerplexityBot (Perplexity) | Indexation + retrieval temps réel | À autoriser pour générer des citations |
| OAI-SearchBot (OpenAI) | Retrieval temps réel pour ChatGPT Search | À autoriser absolument |
| Claude-Web / Claude-SearchBot | Retrieval temps réel pour Claude.ai | À autoriser absolument |
Crawlers d’entraînement vs crawlers de retrieval : la distinction critique
La majorité des sites traitent les bots IA comme un bloc unique. C’est l’erreur stratégique la plus coûteuse de 2026. Une étude Cloudflare publiée en janvier 2026 montre que les crawlers d’entraînement représentent 5 à 10 fois plus de volume que les crawlers de retrieval, mais ne génèrent zéro trafic en retour.
Qu’est-ce qu’un crawler d’entraînement ?
Un crawler d’entraînement ingère votre contenu en masse pour nourrir le prochain modèle de fondation. GPTBot, ClaudeBot, CCBot (Common Crawl) et anthropic-ai entrent dans cette catégorie. Ils passent une fois, copient ce qu’ils peuvent, et repartent. Vous ne recevez ni citation, ni trafic, ni notification d’utilisation.
Qu’est-ce qu’un crawler de retrieval ?
Un crawler de retrieval (aussi appelé agent actif) récupère l’information au moment où un utilisateur pose une question. OAI-SearchBot, ChatGPT-User, Claude-Web, Claude-SearchBot et PerplexityBot fonctionnent ainsi. Ils citent leurs sources, génèrent du trafic vers votre site et constituent votre nouveau levier d’acquisition.
Pourquoi cette différence change tout en 2026
Bloquer les deux familles indistinctement vous prive de visibilité dans ChatGPT, Claude et Perplexity. Autoriser les deux vous expose au pillage gratuit de vos textes. La stratégie 2026 consiste à séparer chirurgicalement ces deux flux. Anthropic a d’ailleurs scindé son bot principal en deux agents en début d’année pour permettre cette granularité.
Lire aussi : Pourquoi mon entreprise n’apparaît pas sur ChatGPT ?
La liste complète des user-agents IA à connaître en 2026
Voici l’inventaire à jour des bots IA actifs en 2026, validé par les documentations officielles d’OpenAI, Anthropic, Perplexity et Google.
| Éditeur | User-agent | Type |
|---|---|---|
| OpenAI | GPTBot |
Training |
| OpenAI | OAI-SearchBot |
Retrieval (ChatGPT Search) |
| OpenAI | ChatGPT-User |
Action utilisateur (browsing) |
| Anthropic | ClaudeBot |
Training |
| Anthropic | anthropic-ai |
Training bulk |
| Anthropic | Claude-Web / Claude-SearchBot |
Retrieval |
| Anthropic | Claude-User |
Action utilisateur |
| Perplexity | PerplexityBot |
Retrieval + index |
| Perplexity | Perplexity-User |
Action utilisateur |
Google-Extended |
Training Gemini | |
| Apple | Applebot-Extended |
Training Apple Intelligence |
| Meta | Meta-ExternalAgent |
Training + agent |
| Common Crawl | CCBot |
Training (dataset public) |
| ByteDance | Bytespider |
Training (non conforme robots.txt) |
Notez deux points sensibles. Bytespider et certains crawlers Perplexity ignorent régulièrement robots.txt selon des audits indépendants publiés en 2025. Le blocage doit alors se faire au niveau serveur ou via Cloudflare. Deuxième point : Google-Extended ne bloque que l’entraînement de Gemini, pas l’indexation Google Search classique. Bloquer Google-Extended ne pénalise donc pas votre SEO traditionnel.
Le bug silencieux des plugins WordPress et Shopify
C’est le piège le plus discret de 2024-2025. Plusieurs plugins SEO populaires sur WordPress et applications Shopify ont ajouté un bouton « bloquer les bots IA » dans leurs réglages. Activé par défaut. Sans alerte. Résultat : des milliers de sites e-commerce et de blogs ont coupé du jour au lendemain leur accès à ChatGPT, Claude et Perplexity sans s’en rendre compte.
Le symptôme typique : un site qui était cité dans ChatGPT en 2024 disparaît brutalement des réponses début 2025. Le trafic IA passe à zéro. Les équipes marketing accusent l’algorithme alors que la cause se trouve dans le robots.txt généré automatiquement par leur stack technique.
Vérifiez ces trois points immédiatement :
- Ouvrez votre
https://votresite.com/robots.txtdans un navigateur. - Recherchez les chaînes
GPTBot,ClaudeBot,PerplexityBot,anthropic-ai. - Si vous voyez un
Disallow: /sous l’un de ces user-agents, vérifiez que c’est intentionnel.
Quels sont les risques de bloquer tous les bots IA ?
Générateur gratuit de robots.txt
Bloquer tous les bots IA produit trois effets directs. Vous perdez vos citations dans les réponses génératives. Votre nom de marque cesse d’apparaître quand un prospect interroge ChatGPT ou Claude. Vos concurrents qui ont autorisé les bons bots récupèrent la requête.
Le second risque concerne le monitoring. Sans autoriser les bots de retrieval, un outil de suivi comme Cockpyt AI ne peut détecter aucune activité IA sur votre site. Je ne peux mesurer votre Share of Voice IA que si vos pages sont effectivement crawlables par OAI-SearchBot, Claude-Web et PerplexityBot. La donnée n’existe pas autrement.
Le troisième risque est commercial. Une marque B2B SaaS qui bloque tout sort des datasets d’entraînement, donc des recommandations spontanées des IA dans les 18 à 24 mois suivants. C’est un effet retard difficile à inverser.
Combien coûte un bot IA non-bloqué sur un grand site ?
Pour un site de moins de 10 000 URL, le coût bande passante des bots IA reste négligeable. Pour un grand média, un éditeur de documentation ou un marketplace avec des centaines de milliers de pages, l’addition change radicalement.
Les ordres de grandeur observés en 2025-2026 sur les grands sites :
- 1 à 10 To de bande passante par mois consommés par les crawlers IA combinés.
- 1 000 à 10 000 € par mois de coût infrastructure correspondant.
- 15 à 40 % de la charge serveur consacrée aux bots IA sur certains éditeurs (source à vérifier).
Un grand média français a confié en 2025 que ses crawlers IA consommaient plus de bande passante que ses utilisateurs humains aux heures creuses. La décision de bloquer ou non devient un arbitrage économique réel, pas une question philosophique.
Comment configurer votre robots.txt en 2026 : 4 scénarios stratégiques
Aucune stratégie universelle n’existe. Votre configuration dépend de votre modèle de revenus et du rôle du contenu dans votre acquisition.
Scénario 1 : E-commerce
Vous voulez maximiser les citations dans ChatGPT Shopping, Perplexity et Claude. Vous bloquez le training (GPTBot, ClaudeBot, CCBot) pour protéger vos descriptions produits exclusives. Vous autorisez tous les bots de retrieval. Vous monitorez ensuite quelles fiches produits remontent dans les réponses IA.
Scénario 2 : Média / éditeur
Votre contenu est votre actif principal. Bloquez tous les bots de training sans exception. Autorisez le retrieval avec parcimonie : OAI-SearchBot, Claude-SearchBot et PerplexityBot suffisent. Surveillez vos logs pour détecter les crawlers non conformes (Bytespider notamment).
Scénario 3 : B2B SaaS
Vous voulez devenir la marque citée par défaut dans votre catégorie. Autorisez largement, y compris les bots de training, sur votre blog et votre documentation. Bloquez le training sur les pages produit sensibles. C’est la stratégie la plus agressive pour gagner du Share of Voice IA rapidement.
Scénario 4 : Site institutionnel ou public
Vous diffusez de l’information de service public ou institutionnelle. Autorisez tout sans restriction. Votre mission est la diffusion, pas la monétisation du contenu.
Le template robots.txt 2026 prêt à copier
Voici le template recommandé pour la majorité des sites en 2026. Adaptez selon votre scénario.
# --- Crawlers d'entraînement : BLOQUÉS ---
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Bytespider
Disallow: /
# --- Crawlers de retrieval : AUTORISÉS ---
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# --- Reste du web ---
User-agent: *
Allow: /
Comment vérifier que votre site est crawlé par les bons bots ?
Trois méthodes coexistent en 2026.
La méthode logs serveur. Cherchez les chaînes gptbot, claudebot, perplexitybot, oai-searchbot dans vos logs Nginx ou Apache. Une commande simple : grep -Ei "gptbot|claudebot|perplexitybot|oai-searchbot" access.log. Un site bien configuré doit voir passer plusieurs dizaines à plusieurs milliers de hits par jour selon sa taille.
La méthode Cloudflare ou CDN. Les dashboards Cloudflare proposent désormais une catégorie « AI Scrapers and Crawlers » qui agrège les visites par bot. Vous voyez instantanément qui passe, à quelle fréquence, sur quelles pages.
La méthode monitoring de visibilité IA. Un outil comme Cockpyt AI simule les requêtes utilisateur dans ChatGPT, Claude et Perplexity, détecte si votre marque est citée, et corrèle avec votre configuration robots.txt. Vous obtenez la photo complète : présence dans les datasets, présence dans les réponses temps réel et comparaison concurrentielle.
FAQ : robots.txt et bots IA en 2026
Le blocage de GPTBot supprime-t-il mon contenu déjà ingéré par ChatGPT ?
Non. Le blocage empêche les futures ingestions, pas celles déjà effectuées. Votre contenu présent dans GPT-4 ou GPT-5 y restera jusqu’au prochain entraînement de modèle. OpenAI ne propose pas de mécanisme de retrait rétroactif via robots.txt.
Bloquer Google-Extended pénalise-t-il mon SEO sur Google Search ?
Non. Google-Extended ne contrôle que l’utilisation de votre contenu pour entraîner Gemini et les fonctionnalités IA de Google. Le bot Googlebot classique reste indépendant et continue d’indexer votre site normalement pour Google Search.
PerplexityBot respecte-t-il vraiment robots.txt ?
Pas toujours. Plusieurs audits indépendants publiés en 2024 et 2025 ont documenté des crawlers Perplexity ignorant les directives. Pour un blocage fiable, doublez la directive robots.txt par une règle pare-feu au niveau Cloudflare ou de votre CDN.
Que se passe-t-il si je n’ai aucun fichier robots.txt ?
Tous les bots accèdent par défaut à l’intégralité de votre site. Vos contenus alimentent donc tous les modèles IA et apparaissent dans toutes les réponses temps réel. C’est la configuration la plus permissive possible.
ClaudeBot et Claude-Web sont-ils le même bot ?
Non. Anthropic a séparé ses agents début 2026. ClaudeBot reste le crawler d’entraînement. Claude-Web et Claude-SearchBot sont les agents de retrieval qui récupèrent l’information en temps réel quand un utilisateur interroge Claude.ai. Vous pouvez bloquer le premier et autoriser les seconds.
Faut-il créer un fichier llms.txt en plus du robots.txt ?
L’adoption de llms.txt reste marginale en 2026. Les principaux modèles IA n’en tiennent pas compte de manière systématique. Concentrez vos efforts sur robots.txt, c’est lui qui pilote l’accès réel.
Comment savoir si un bot qui visite mon site est légitime ?
Vérifiez l’IP source dans les ranges officiels publiés par OpenAI, Anthropic et Perplexity. Tout bot qui se déclare GPTBot mais provient d’une IP non listée par OpenAI est probablement un scraper déguisé.
Sources et références
- Cubitrek, « Robots.txt 2026: Managing AI Crawler Budgets », mai 2026 — cubitrek.com
- xSeek, « GPTBot: Should You Block It or Allow It? », avril 2026 — xseek.io
- Witscode, « Robots.txt Strategy 2026 », mars 2026 — witscode.com
- Mersel AI, « How to Block or Allow AI Bots on Your Website », mars 2026 — mersel.ai
- Cloudflare Radar, « AI crawlers traffic analysis », janvier 2026.
- OpenAI, « GPTBot user agent documentation », août 2023, mise à jour 2025.
- Anthropic, « Claude bot user agents », documentation officielle 2025-2026.


