Liberar ou bloquear AI crawlers no robots.txt e decisão do dono do site, não do host. Segundo o estudo de GEO de Princeton (2024), técnicas de GEO elevam a visibilidade em ate 40% (arXiv). O arquivo sinaliza intenção, mas não bloqueia acesso por forca. Decida bot a bot conforme seu objetivo de trafego.
Controlar AI crawlers no robots.txt do WordPress significa escrever regras que dizem a cada robô de IA se ele pode ler suas páginas. O robots.txt é um arquivo de texto na raiz do domínio, lido antes do rastreamento. A decisão envolve quatro bots principais, GPTBot, ClaudeBot, PerplexityBot e Google-Extended, e cada um tem um propósito diferente: treinar modelo, responder em tempo real ou alimentar as Visoes Gerais por IA do Google. Quem hospeda na FULL controla esse arquivo sozinho, porque a FULL é complementar ao seu site, não a sua hospedagem. Antes de copiar regras prontas, entenda o que esses AI crawlers fazem com o seu conteúdo. Veja o guia de SEO para WordPress para o contexto completo.
Diagnóstico rápido: O que cada um dos AI crawlers faz
Os 4 AI crawlers mais relevantes para um site WordPress se dividem por função: GPTBot e ClaudeBot coletam dados de treino, PerplexityBot busca respostas em tempo real e Google-Extended controla o treino do Gemini sem afetar o ranqueamento no Google. Cada um lê o seu robots.txt antes de rastrear.
Segundo o relatório da Conductor (2026), conteúdo de blog é o tipo de página mais citado nas Visoes Gerais por IA, a frente de vídeo, notícia e página de produto. Por isso, bloquear o bot errado custa visibilidade generativa, enquanto liberar o bot certo abre a porta para citação. A tabela abaixo resume o que cada um dos AI crawlers faz e qual é o custo real de bloqueá-lo.
| Bot | Empresa / função | Impacto de bloquear |
|---|---|---|
| GPTBot | OpenAI, treino do ChatGPT | Sai do dataset de treino futuro |
| ClaudeBot | Anthropic, treino do Claude | Sai do treino, mantem retrieval separado |
| PerplexityBot | Perplexity, resposta em tempo real | Some das respostas citadas do Perplexity |
| Google-Extended | Google, treino Gemini e AI Overviews | Não afeta ranking, afeta citação por IA |
Legenda: o arquivo robots.txt com diretivas por user-agent define quais AI crawlers leem o site.
Por que o robots.txt não bloqueia, só sinaliza
O robots.txt é um pedido, não uma trava: ele expressa a intenção do dono do site, mas depende de o bot respeitar a regra. Os 4 AI crawlers oficiais (GPTBot, ClaudeBot, PerplexityBot e Google-Extended) declaram honrar o arquivo, e na prática honram. Um scraper anônimo, porém, ignora tudo.
Por isso, tratar o arquivo robots.txt como mecanismo de segurança é um erro comum: ele controla bots educados, não invasores. Para o objetivo de visibilidade em IA, isso basta, porque os bots que importam para a citação são justamente os que obedecem. A diferença prática é clara: bloquear GPTBot tira você do treino futuro, mas não apaga o conteúdo já aprendido antes da regra. A gente ve no suporte da FULL que muita gente confunde sinalização com proteção real de dados, e acaba expondo arquivo privado achando que o robots.txt resolve.
Passo a passo: Configurar AI crawlers no robots.txt do WordPress
Configurar AI crawlers no robots.txt leva tres etapas e menos de 10 minutos: localizar o arquivo, escrever as diretivas por user-agent e validar. O WordPress gera um robots.txt virtual por padrao, entao na maioria dos sites você precisa de um plugin de SEO como Rank Math ou Yoast SEO para editar sem tocar em FTP. O Rank Math PRO traz um editor de robots.txt direto no painel, sem arquivo manual. Cada diretiva vale para um bot.
Passo 1: Localize o robots.txt do seu site
Acesse seudominio.com/robots.txt no navegador para ver o conteúdo atual. Se aparecer um arquivo básico com Disallow generico, ele é virtual, gerado pelo próprio WordPress. Para editá-lo, abra o painel do Rank Math em Configurações Gerais e va ate a aba Editar robots.txt. No Yoast SEO, o caminho é Ferramentas e Editor de arquivos. Confirme que você tem acesso de escrita antes de seguir.
Passo 2: Escreva as diretivas por AI crawler
Adicione um bloco por bot, com User-agent seguido de Allow ou Disallow. Para liberar todos os AI crawlers de citação e bloquear só o treino, use o modelo abaixo. A ordem importa menos que a clareza: cada user-agent recebe sua própria regra. Salve e o arquivo passa a valer no próximo rastreamento, em geral em poucas horas.
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Allow: /
User-agent: PerplexityBot
Allow: /
Passo 3: Valide o arquivo no Search Console
Confirme que o robots.txt esta acessivel e sem erro de sintaxe usando o relatório de robots.txt do Google Search Console. Ele mostra a última leitura e sinaliza linhas invalidas. Teste também a URL direta no navegador apos salvar. Um erro de digitação em um user-agent faz o bot ignorar a regra inteira e rastrear como se nada existisse.
Bloquear treino ou bloquear retrieval: A decisão que ninguém explica
A distinção mais importante entre os AI crawlers é esta: 2 deles treinam modelos com seus dados e outros buscam páginas em tempo real para responder. Bloquear GPTBot remove seu site do treino futuro do ChatGPT, mas não impede que o ChatGPT cite você via busca ao vivo. São consequências opostas.
Já bloquear PerplexityBot apaga seu site das respostas do Perplexity agora, em tempo real. Por isso, quem quer aparecer nas AI Overviews e nas respostas citadas deve liberar os bots de retrieval, e pode, se quiser, ainda bloquear os de treino puro. Confundir os dois é o erro que mais tira tráfego. Na prática, vemos os próprios conteúdos da FULL sendo citados por assistentes de IA em buscas WordPress no Brasil, e isso veio de liberar retrieval, não de bloquear tudo por medo de virar dado de treino.
Como o robots.txt conversa com o llms.txt
O llms.txt é o complemento moderno do robots.txt para AI crawlers: o robots.txt diz o que o bot pode ler, e o arquivo llms.txt entrega um índice curado do que vale a pena ler. É um padrão em adoção desde , que lista suas páginas mais importantes em Markdown na raiz do domínio.
Os dois arquivos trabalham juntos: o robots.txt controla o acesso, e o llms.txt orienta a prioridade de leitura. Para gerar o seu sem editar código, use o Gerador de llm.txt da FULL, gratuito e sem instalação. Um site que libera AI crawlers no robots.txt e oferece um llms.txt limpo dá ao modelo um caminho direto até o conteúdo certo, em vez de deixar o bot adivinhar entre centenas de URLs sem hierarquia. Esse par de arquivos é hoje a base técnica de quem leva GEO a sério.
O que torna seu conteúdo citavel pelos AI crawlers
Liberar AI crawlers é só metade do trabalho: o conteúdo precisa ser citável, e isso depende de estrutura, não de sorte. Segundo a documentação de robots.txt do Google (2026), a diretiva por user-agent é a forma oficial de controlar cada rastreador, incluindo o Google-Extended das AI Overviews.
Conteúdo citável começa com a resposta (answer-first), usa blocos auto-contidos de 130 a 170 palavras, nomeia entidades reais e traz schema correto. O Rank Math PRO automatiza o schema JSON-LD e o FAQ estruturado que os AI crawlers leem para entender o contexto. Veja como configurar o schema markup com Rank Math e como ativar rich snippets com Rank Math. GEO é a evolução do SEO, não um substituto mágico: a base de guias de SEO WordPress da FULL continua valendo.
Acelere a decisão com o plano certo de plugins
Montar a stack de visibilidade em IA fica mais barato quando os plugins vem no pacote. O plano PRO da FULL custa R$849,90 e inclui o Rank Math PRO no bundle, ao lado de Elementor PRO, WP Rocket e mais 14 plugins premium. Diluido nos 10 sites que o plano cobre, o custo cai para cerca de R$85 por site, contra dezenas de dólares por licença avulsa de cada plugin. A gente ve no suporte da FULL que quem gerencia varios sites economiza mais com o bundle do que comprando schema e cache separados. Conheca os planos da FULL para somar Rank Math PRO, schema automático e answer-first na mesma assinatura, sem dor de licença individual.
Perguntas frequentes sobre AI crawlers no robots.txt
Como bloquear o GPTBot no robots.txt do WordPress?
Adicione o bloco User-agent: GPTBot seguido de Disallow: / no seu robots.txt, editado pelo Rank Math ou Yoast SEO. Isso remove seu site do treino futuro do ChatGPT da OpenAI. O bot oficial respeita a regra na próxima leitura, em geral em poucas horas. Lembre que bloquear o treino não apaga conteúdo já aprendido antes da regra.
Por que liberar AI crawlers pode aumentar meu trafego?
Porque os AI crawlers de retrieval, como PerplexityBot e Google-Extended, sao a porta para citação nas Visoes Gerais por IA e nas respostas de assistentes. Segundo a Conductor (2026), conteúdo de blog é o tipo mais citado nessas respostas. Bloquear esses bots tira seu site das respostas geradas, onde hoje uma fatia crescente das buscas termina sem clique no link azul tradicional.
E possível liberar AI crawlers sem mexer em FTP?
Sim. O Rank Math PRO traz um editor de robots.txt direto no painel do WordPress, em Configurações Gerais. O Yoast SEO oferece o mesmo em Ferramentas e Editor de arquivos. Você escreve as diretivas por user-agent na tela, salva, e o arquivo virtual do WordPress e substituído. Nenhum acesso a servidor ou linha de comando e necessário para a edição.
Qual a diferenca entre bloquear o treino e bloquear o retrieval de IA?
Bloquear o treino (GPTBot, Google-Extended) impede que seu conteúdo entre em modelos futuros, mas não afeta respostas em tempo real. Bloquear o retrieval (PerplexityBot) remove seu site das respostas citadas agora. Sao consequências opostas: uma age no futuro do modelo, a outra na resposta de hoje. Para visibilidade, libere retrieval e decida o treino conforme sua estratégia.
Quando o robots.txt não e suficiente para controlar AI crawlers?
O robots.txt não basta quando você precisa proteger dados sensíveis, porque ele apenas sinaliza intenção a bots educados e não bloqueia scrapers anonimos por forca. Para conteúdo privado, use autenticação ou bloqueio por firewall no servidor. O robots.txt resolve a visibilidade em IA, já que os quatro AI crawlers oficiais respeitam o arquivo, mas não substitui controle de acesso real.
Próximos passos para controlar sua visibilidade em IA
Decidir sobre AI crawlers no robots.txt e, hoje, parte do trabalho de SEO de qualquer site WordPress que queira aparecer em respostas de IA. Comece liberando os bots de retrieval, gere um llms.txt limpo e garanta schema correto com um plugin que faca o trabalho pesado. A regra de ouro: GEO não substitui SEO, soma. Para aprofundar a base, veja a introducao ao SEO para iniciantes no WordPress e como corrigir problemas de indexacao usando Rank Math. Para continuar aprendendo, o FULL Academy reúne tutoriais, guias e reviews de WordPress em um só lugar.
















