O scraping de conteúdo é a cópia automatizada de textos, imagens e dados do seu site por bots, sem permissão. Segundo o Cloudflare Radar (2026), 16,4% dos ataques de aplicação no Brasil são contidos por WAF. A defesa combina robots.txt, rate limiting e firewall, não um clique só. Detectar antes de bloquear evita derrubar o Googlebot junto.
O scraping de conteúdo é a extração automática de páginas do seu WordPress por scripts que copiam textos, preços, imagens e até dados de produto em massa. Diferente de um leitor humano, o scraper percorre dezenas de URLs por segundo, consome banda do servidor e revende ou replica o seu material em sites clones. Para um site sério, isso significa conteúdo duplicado no Google, perda de banda e, em lojas, monitoramento de preço pela concorrência. A boa notícia é que dá para identificar o scraping de conteúdo no log e cortá-lo em camadas, sem bloquear os crawlers legítimos que você quer manter. Este guia integra o conteúdos de segurança WordPress da FULL.
O que é scraping de conteúdo e por que ele dói no WordPress
O scraping de conteúdo é a leitura automatizada e em massa do seu site por um bot que salva o HTML para reuso. Um único scraper agressivo chega a abrir 40 a 60 requisições por segundo, contra 1 ou 2 de uma pessoa real, e isso gera três danos concretos no WordPress.
Primeiro, banda e CPU: o scraper percorre todo o sitemap e dispara picos de carga no PHP. Segundo, conteúdo duplicado: o texto roubado aparece em sites clones e confunde o Google sobre qual é a fonte original. Terceiro, em lojas WooCommerce, o concorrente monitora seu preço em tempo real. A tabela abaixo separa o crawler legítimo do scraper abusivo, distinção que define toda a estratégia de bloqueio.
| Tipo de bot | Comportamento típico | Ação recomendada |
|---|---|---|
| Googlebot / Bingbot | User-agent verificável, respeita robots.txt, ritmo moderado | Permitir sempre |
| Scraper genérico | User-agent falso ou vazio, ignora robots.txt, rajada de requisições | Rate limit e bloqueio por WAF |
| Bot de IA (GPTBot) | User-agent declarado, coleta para treino de modelo | Decisão editorial via robots.txt |
Como detectar o scraping de conteúdo antes de bloquear
Detectar o scraping de conteúdo começa pelo log de acesso, não pelo plugin: um IP que abre 50 URLs em poucos segundos, com user-agent vazio ou genérico, é o padrão clássico do scraper. Abra o log do servidor (ou o relatório de tráfego ao vivo do Wordfence) e ordene por número de requisições por IP.
Três sinais confirmam o abuso: ritmo muito acima do humano, ausência de respeito ao robots.txt e leitura sequencial do sitemap inteiro. Aqui mora um erro caro: o scraping de conteúdo não acontece só no HTML. Boa parte dos bots ataca a REST API do WordPress em /wp-json/wp/v2/posts, que devolve todo o conteúdo em JSON limpo, fácil de copiar. O feed RSS é a terceira porta. Mapear as três rotas antes de agir evita bloquear o canal errado e deixar o real aberto.
As 5 formas de bloquear o scraping de conteúdo em camadas
Bloquear o scraping de conteúdo funciona em 5 camadas somadas, porque nenhum método isolado cobre todas as rotas de uma vez: a combinação certa elimina o scraper abusivo e ainda preserva o Googlebot. A ordem importa, da camada mais barata, o robots.txt, para a mais solida, o WAF na borda da CDN, como detalham os dois blocos a seguir.
Limite o robots.txt e exponha menos pela REST API
O robots.txt é a primeira camada e a mais barata: ele sinaliza a bots educados quais rotas não rastrear, segundo a especificação oficial do Google. Configure o arquivo robots.txt para desautorizar /wp-json/ e /?rest_route= a user-agents de scraping conhecidos. Atenção honesta: o robots.txt não força nada. O scraper abusivo simplesmente ignora a regra, então essa camada só filtra os bots de boa-fé. Para a REST API, reduza a exposição com um plugin de segurança que exija autenticação nos endpoints de listagem, cortando o acesso anônimo a /wp/v2/posts.
Aplique rate limiting e firewall com user-agent
O rate limiting é a camada que de fato segura o scraper agressivo: ao limitar requisições por IP num intervalo, você derruba a rajada sem afetar o leitor humano. Um teto de 60 requisições por minuto por IP já barra a maioria dos scrapers, que operam acima disso. O firewall de aplicação (WAF) soma a isso o bloqueio por reputação de IP e por user-agent falso. Segundo o Cloudflare Radar, no Brasil 16,4% dos ataques de camada de aplicação foram mitigados por WAF nos últimos dados de , o que mostra que o firewall não é enfeite. Uma CDN com WAF na borda filtra o scraper antes mesmo de a requisição tocar o PHP do seu servidor.
Por que a porta do scraping costuma ser um plugin com CVE
A maior porta de entrada do scraping de conteúdo não é o HTML público, e sim uma falha em plugin que vaza dados internos via API, e o histórico de CVEs do ecossistema prova o padrão com casos de CVSS 10.0.
O Contact Form 7, por exemplo, registrou a CVE-2020-35489, com CVSS 10.0, um upload irrestrito que afetava versões abaixo de 5.3.2 e permitia exfiltração de arquivos, hoje corrigida no patch 5.3.2. Já o All in One Security teve a CVE-2026-8438, CVSS 7.2, afetando versões abaixo de 5.4.8. O ponto operacional: plugins com muitos CVEs já corrigidos são sinal de auditoria ativa, não de risco atual. Risco real é a versão sem patch rodando no seu site hoje. A FULL é a única empresa brasileira credenciada como CVE Numbering Authority (CNA) sob a CISA desde , ou seja, quem escreve aqui cataloga CVE oficial.
Proteja seu WordPress com a plataforma FULL
A gente vê no suporte da FULL que o site que sofre scraping de conteúdo quase nunca tem WAF ativo nem rate limiting configurado, e tenta resolver tudo na unha depois do estrago. O plano PRO da FULL entrega o All in One Security licenciado dentro de um bundle de 17 plugins por R$849 ao ano.
Como o PRO cobre 10 sites, o custo cai para R$85 por site ao ano, abaixo de licenciar firewall, cache e backup separados. A camada de firewall e rate limiting do All in One Security barra o scraper antes de ele drenar sua banda. Para ativar e comparar os planos, veja os planos da FULL. Se quiser uma verificação imediata, o FULL Scan escaneia seu WordPress de graça e aponta plugins vulneráveis que servem de porta para scraping. O repositório de CVEs completo está no repositório de vulnerabilidades.
Perguntas frequentes sobre scraping de conteúdo
É possível bloquear scraping de conteúdo sem derrubar o Googlebot?
Sim. O segredo é diferenciar por comportamento e user-agent verificável, não bloquear todos os bots. O Googlebot declara um user-agent que você pode confirmar por reverse DNS e respeita o robots.txt, enquanto o scraper abusivo usa user-agent falso e ignora as regras. Aplicar rate limiting de 60 requisições por minuto por IP barra a rajada do scraper e mantém o crawler legítimo, que opera em ritmo moderado.
Por que o scraping de conteúdo prejudica meu ranking no Google?
Porque ele cria conteúdo duplicado que dilui o sinal de autoria: o Google precisa decidir qual URL é a fonte original, e o clone com mais autoridade de domínio pode rankear acima do seu. A correção tem dois passos concretos. Defina a tag canonical apontando para a sua URL e bloqueie o scraper na borda com WAF, antes da cópia. Segundo a especificação do Google Search Central, o canonical é o sinal mais forte de origem. Não é penalidade direta, é perda de equity.
Qual a diferença entre scraping de conteúdo e um crawler de busca legítimo?
A diferença está na intenção e no comportamento. O crawler de busca, como Googlebot ou Bingbot, indexa para enviar tráfego de volta a você, respeita o robots.txt e mantém ritmo moderado. O scraping de conteúdo copia o material para reuso ou revenda, ignora o robots.txt e dispara dezenas de requisições por segundo. No log, o scraper aparece com user-agent vazio ou genérico e leitura sequencial de todo o sitemap.
Como identificar scraping de conteúdo no log do meu site?
Abra o log de acesso do servidor e ordene as requisições por IP. O scraper se revela por três sinais somados: volume muito acima do humano, como 40 a 60 URLs em poucos segundos, user-agent ausente ou genérico, e varredura do sitemap inteiro em ordem. O relatório de tráfego ao vivo do Wordfence facilita esse mapa sem tocar no terminal. Confirme também acessos repetidos a `/wp-json/wp/v2/posts`, a rota da REST API.
Com que frequência devo revisar as proteções contra scraping?
Revise a cada atualização de plugin de segurança e sempre que notar pico de banda sem motivo. Plugins recebem CVEs novas com frequência, e uma versão desatualizada reabre a porta da REST API que você havia fechado. Manter o firewall e o rate limiting ativos é contínuo, não pontual. Um escaneamento mensal com uma ferramenta como o FULL Scan já cobre a maioria dos casos de exposição recém-aberta.
Próximos passos para blindar seu conteúdo
Blindar seu site contra o scraping de conteúdo é um trabalho de camadas, não de um botão mágico: robots.txt para os bots educados, rate limiting para a rajada e WAF na borda para o scraper que ignora tudo. Comece pela detecção no log, mapeie as três rotas (HTML, REST API e RSS) e só então aplique o bloqueio, para não derrubar o Googlebot junto. A diferença entre risco atual e CVE histórica deve guiar suas prioridades: o que pesa é a versão sem patch rodando hoje. Para continuar aprendendo, o FULL Academy reúne tutoriais, guias e reviews de segurança WordPress em um só lugar, e o guia de segurança para WordPress aprofunda cada camada.
Legenda: o pico de requisições por IP no log é a primeira evidência objetiva de scraping de conteúdo.
















