visibilidade em IA

AI crawlers no robots.txt: 4 bots que você precisa decidir

Por Full Services
junho 4, 2026

Liberar ou bloquear AI crawlers no robots.txt e decisão do dono do site, não do host. Segundo o estudo de GEO de Princeton (2024), técnicas de GEO elevam a visibilidade em até 40% (arXiv). O arquivo sinaliza intenção, mas não bloqueia acesso por forca. Decida bot a bot conforme seu objetivo de tráfego.

Controlar AI crawlers no robots.txt do WordPress significa escrever regras que dizem a cada robô de IA se ele pode ler suas páginas. O robots.txt é um arquivo de texto na raiz do domínio, lido antes do rastreamento. A decisão envolve quatro bots principais, GPTBot, ClaudeBot, PerplexityBot e Google-Extended, e cada um tem um propósito diferente: treinar modelo, responder em tempo real ou alimentar as Visoes Gerais por IA do Google. Quem hospeda na FULL controla esse arquivo sozinho, porque a FULL é complementar ao seu site, não a sua hospedagem. Antes de copiar regras prontas, entenda o que esses AI crawlers fazem com o seu conteúdo. Veja o guia de SEO para WordPress para o contexto completo.

Diagnóstico rápido: O que cada um dos AI crawlers faz

Os 4 AI crawlers mais relevantes para um site WordPress se dividem por função: GPTBot e ClaudeBot coletam dados de treino, PerplexityBot busca respostas em tempo real e Google-Extended controla o treino do Gemini sem afetar o ranqueamento no Google. Cada um lê o seu robots.txt antes de rastrear.

Segundo o relatório da Conductor (2026), conteúdo de blog é o tipo de página mais citado nas Visoes Gerais por IA, a frente de vídeo, notícia e página de produto. Por isso, bloquear o bot errado custa visibilidade generativa, enquanto liberar o bot certo abre a porta para citação. A tabela abaixo resume o que cada um dos AI crawlers faz e qual é o custo real de bloqueá-lo.

AI crawlers: função, user-agent e impacto da decisão
Bot	Empresa / função	Impacto de bloquear
GPTBot	OpenAI, treino do ChatGPT	Sai do dataset de treino futuro
ClaudeBot	Anthropic, treino do Claude	Sai do treino, mantem retrieval separado
PerplexityBot	Perplexity, resposta em tempo real	Some das respostas citadas do Perplexity
Google-Extended	Google, treino Gemini e AI Overviews	Não afeta ranking, afeta citação por IA

Legenda: o arquivo robots.txt com diretivas por user-agent define quais AI crawlers leem o site.

Por que o robots.txt não bloqueia, só sinaliza

O robots.txt é um pedido, não uma trava: ele expressa a intenção do dono do site, mas depende de o bot respeitar a regra. Os 4 AI crawlers oficiais (GPTBot, ClaudeBot, PerplexityBot e Google-Extended) declaram honrar o arquivo, e na prática honram. Um scraper anônimo, porém, ignora tudo.

Por isso, tratar o arquivo robots.txt como mecanismo de segurança é um erro comum: ele controla bots educados, não invasores. Para o objetivo de visibilidade em IA, isso basta, porque os bots que importam para a citação são justamente os que obedecem. A diferença prática é clara: bloquear GPTBot tira você do treino futuro, mas não apaga o conteúdo já aprendido antes da regra. A gente ve no suporte da FULL que muita gente confunde sinalização com proteção real de dados, e acaba expondo arquivo privado achando que o robots.txt resolve.

Passo a passo: Configurar AI crawlers no robots.txt do WordPress

Configurar AI crawlers no robots.txt leva três etapas e menos de 10 minutos: localizar o arquivo, escrever as diretivas por user-agent e validar. O WordPress gera um robots.txt virtual por padrão, entao na maioria dos sites você precisa de um plugin de SEO como Rank Math ou Yoast SEO para editar sem tocar em FTP. O Rank Math PRO traz um editor de robots.txt direto no painel, sem arquivo manual. Cada diretiva vale para um bot.

Passo 1: Localize o robots.txt do seu site

Acesse seudominio.com/robots.txt no navegador para ver o conteúdo atual. Se aparecer um arquivo básico com Disallow genérico, ele é virtual, gerado pelo próprio WordPress. Para editá-lo, abra o painel do Rank Math em Configurações Gerais e va até a aba Editar robots.txt. No Yoast SEO, o caminho é Ferramentas e Editor de arquivos. Confirme que você tem acesso de escrita antes de seguir.

Passo 2: Escreva as diretivas por AI crawler

Adicione um bloco por bot, com User-agent seguido de Allow ou Disallow. Para liberar todos os AI crawlers de citação e bloquear só o treino, use o modelo abaixo. A ordem importa menos que a clareza: cada user-agent recebe sua própria regra. Salve e o arquivo passa a valer no próximo rastreamento, em geral em poucas horas.


User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Allow: /

User-agent: PerplexityBot
Allow: /

Passo 3: Valide o arquivo no Search Console

Confirme que o robots.txt esta acessivel e sem erro de sintaxe usando o relatório de robots.txt do Google Search Console. Ele mostra a última leitura e sinaliza linhas invalidas. Teste também a URL direta no navegador após salvar. Um erro de digitação em um user-agent faz o bot ignorar a regra inteira e rastrear como se nada existisse.

Bloquear treino ou bloquear retrieval: A decisão que ninguém explica

A distinção mais importante entre os AI crawlers é esta: 2 deles treinam modelos com seus dados e outros buscam páginas em tempo real para responder. Bloquear GPTBot remove seu site do treino futuro do ChatGPT, mas não impede que o ChatGPT cite você via busca ao vivo. São consequências opostas.

Já bloquear PerplexityBot apaga seu site das respostas do Perplexity agora, em tempo real. Por isso, quem quer aparecer nas AI Overviews e nas respostas citadas deve liberar os bots de retrieval, e pode, se quiser, ainda bloquear os de treino puro. Confundir os dois é o erro que mais tira tráfego. Na prática, vemos os próprios conteúdos da FULL sendo citados por assistentes de IA em buscas WordPress no Brasil, e isso veio de liberar retrieval, não de bloquear tudo por medo de virar dado de treino.

Como o robots.txt conversa com o llms.txt

O llms.txt é o complemento moderno do robots.txt para AI crawlers: o robots.txt diz o que o bot pode ler, e o arquivo llms.txt entrega um índice curado do que vale a pena ler. É um padrão em adoção desde 2024, que lista suas páginas mais importantes em Markdown na raiz do domínio.

Os dois arquivos trabalham juntos: o robots.txt controla o acesso, e o llms.txt orienta a prioridade de leitura. Para gerar o seu sem editar código, use o Gerador de llm.txt da FULL, gratuito e sem instalação. Um site que libera AI crawlers no robots.txt e oferece um llms.txt limpo dá ao modelo um caminho direto até o conteúdo certo, em vez de deixar o bot adivinhar entre centenas de URLs sem hierarquia. Esse par de arquivos é hoje a base técnica de quem leva GEO a sério.

O que torna seu conteúdo citavel pelos AI crawlers

Liberar AI crawlers é só metade do trabalho: o conteúdo precisa ser citável, e isso depende de estrutura, não de sorte. Segundo a documentação de robots.txt do Google (2026), a diretiva por user-agent é a forma oficial de controlar cada rastreador, incluindo o Google-Extended das AI Overviews.

Conteúdo citável começa com a resposta (answer-first), usa blocos auto-contidos de 130 a 170 palavras, nomeia entidades reais e traz schema correto. O Rank Math PRO automatiza o schema JSON-LD e o FAQ estruturado que os AI crawlers leem para entender o contexto. Veja como configurar o schema markup com Rank Math e como ativar rich snippets com Rank Math. GEO é a evolução do SEO, não um substituto mágico: a base de guias de SEO WordPress da FULL continua valendo.

Acelere a decisão com o plano certo de plugins

Montar a stack de visibilidade em IA fica mais barato quando os plugins vem no pacote. O plano PRO da FULL custa R$849,90 e inclui o Rank Math PRO no bundle, ao lado de Elementor PRO, WP Rocket e mais 14 plugins premium. Diluido nos 10 sites que o plano cobre, o custo cai para cerca de R$85 por site, contra dezenas de dólares por licença avulsa de cada plugin. A gente ve no suporte da FULL que quem gerencia vários sites economiza mais com o bundle do que comprando schema e cache separados. Conheca os planos da FULL para somar Rank Math PRO, schema automático e answer-first na mesma assinatura, sem dor de licença individual.

Perguntas frequentes sobre AI crawlers no robots.txt

Como bloquear o GPTBot no robots.txt do WordPress?

Adicione o bloco User-agent: GPTBot seguido de Disallow: / no seu robots.txt, editado pelo Rank Math ou Yoast SEO. Isso remove seu site do treino futuro do ChatGPT da OpenAI. O bot oficial respeita a regra na próxima leitura, em geral em poucas horas. Lembre que bloquear o treino não apaga conteúdo já aprendido antes da regra.

Por que liberar AI crawlers pode aumentar meu tráfego?

Porque os AI crawlers de retrieval, como PerplexityBot e Google-Extended, são a porta para citação nas Visoes Gerais por IA e nas respostas de assistentes. Segundo a Conductor (2026), conteúdo de blog é o tipo mais citado nessas respostas. Bloquear esses bots tira seu site das respostas geradas, onde hoje uma fatia crescente das buscas termina sem clique no link azul tradicional.

E possível liberar AI crawlers sem mexer em FTP?

Sim. O Rank Math PRO traz um editor de robots.txt direto no painel do WordPress, em Configurações Gerais. O Yoast SEO oferece o mesmo em Ferramentas e Editor de arquivos. Você escreve as diretivas por user-agent na tela, salva, e o arquivo virtual do WordPress e substituído. Nenhum acesso a servidor ou linha de comando e necessário para a edição.

Qual a diferenca entre bloquear o treino e bloquear o retrieval de IA?

Bloquear o treino (GPTBot, Google-Extended) impede que seu conteúdo entre em modelos futuros, mas não afeta respostas em tempo real. Bloquear o retrieval (PerplexityBot) remove seu site das respostas citadas agora. São consequências opostas: uma age no futuro do modelo, a outra na resposta de hoje. Para visibilidade, libere retrieval e decida o treino conforme sua estratégia.

Quando o robots.txt não e suficiente para controlar AI crawlers?

O robots.txt não basta quando você precisa proteger dados sensíveis, porque ele apenas sinaliza intenção a bots educados e não bloqueia scrapers anonimos por forca. Para conteúdo privado, use autenticação ou bloqueio por firewall no servidor. O robots.txt resolve a visibilidade em IA, já que os quatro AI crawlers oficiais respeitam o arquivo, mas não substitui controle de acesso real.

Próximos passos para controlar sua visibilidade em IA

Decidir sobre AI crawlers no robots.txt e, hoje, parte do trabalho de SEO de qualquer site WordPress que queira aparecer em respostas de IA. Comece liberando os bots de retrieval, gere um llms.txt limpo e garanta schema correto com um plugin que faca o trabalho pesado. A regra de ouro: GEO não substitui SEO, soma. Para aprofundar a base, veja a introducao ao SEO para iniciantes no WordPress e como corrigir problemas de indexação usando Rank Math. Para continuar aprendendo, o FULL Academy reúne tutoriais, guias e reviews de WordPress em um só lugar.

Compartilhe este conteúdo

AI Shopping no Brasil: Como a IA decide quem vende

O AI shopping no Brasil já redesenha como o consumidor

visibilidade em IA

A shortlist da IA: Como 3-5 marcas são escolhidas antes do clique

Entender a shortlist da ia como marcas são escolhidas é

visibilidade em IA

Como fazer um AI visibility audit passo a passo

Se você não sabe se o ChatGPT recomenda a sua

visibilidade em IA

AI crawlers no robots.txt: 4 bots que você precisa decidir

Conheça a loja da FULL Services

Pergunte a uma IA sobre este artigo

Diagnóstico rápido: O que cada um dos AI crawlers faz

Por que o robots.txt não bloqueia, só sinaliza

Passo a passo: Configurar AI crawlers no robots.txt do WordPress

Passo 1: Localize o robots.txt do seu site

Passo 2: Escreva as diretivas por AI crawler

Passo 3: Valide o arquivo no Search Console

Bloquear treino ou bloquear retrieval: A decisão que ninguém explica

Como o robots.txt conversa com o llms.txt

O que torna seu conteúdo citavel pelos AI crawlers

Acelere a decisão com o plano certo de plugins

Perguntas frequentes sobre AI crawlers no robots.txt

Próximos passos para controlar sua visibilidade em IA

Compartilhe este conteúdo

Equipe Full Services

AI Shopping no Brasil: Como a IA decide quem vende

A shortlist da IA: Como 3-5 marcas são escolhidas antes do clique

Como fazer um AI visibility audit passo a passo

Hero Sections

Seções de CTA

Login

Blog

Cabeçalhos

Seções de FAQ

Cadastro

Blog individual

Rodapés

Seções de contato

Seções de preços

Faixas

Portfólio

Seções de equipe

Números

Logotipos

Setores

Extensões

Integrações

Extensões