Às vezes, você precisa excluir conteúdo ou arquivos específicos do WordPress de serem indexados nos resultados de pesquisa do Google. Índice, ou “indexação” antes do surgimento do Google e de outros mecanismos de busca, era uma palavra principalmente associada a livros. Geralmente fica no final da maioria dos livros, e é por isso que o dicionário Cambridge o define neste contexto como:
Índice: uma lista alfabética, como uma impressa na parte de trás de um livro, mostrando em qual página um assunto, nome, etc. está.
Avançando para 1995, durante o boom da internet, temos serviços como o mecanismo de busca do Yahoo e, em 1997, a busca do Google mudou drasticamente a forma como pesquisamos e acessamos informações na internet.
De acordo com uma pesquisa feita em janeiro de 2018, existem 1.805.260.010 (mais de 1,8 bilhão) sites na internet, e muitos desses sites não recebem visitantes.
O que é a Indexação do Google?
Existem diferentes mecanismos de pesquisa com um formato diferente de indexação, mas os mecanismos de pesquisa populares incluem Google, Bing e, para indivíduos preocupados com a privacidade, duckduckgo.
A indexação do Google geralmente se refere ao processo de adicionar novas páginas da web, incluindo conteúdo digital, como documentos, vídeos e imagens, e armazená-los em seu banco de dados. Em outras palavras, para que o conteúdo do seu site apareça nos resultados de pesquisa do Google, primeiro eles precisam ser armazenados no índice do Google.
O Google é capaz de indexar todas essas páginas e conteúdos digitais usando seus spiders, crawlers ou bots que rastreiam repetidamente diferentes sites na Internet. Esses bots e rastreadores seguem as instruções dos proprietários do site sobre o que rastrear e o que deve ser ignorado durante o rastreamento.
Por que os sites precisam ser indexados?
Nesta era da era digital, é quase impossível navegar por bilhões de sites encontrando um determinado tópico e conteúdo. Será muito mais fácil se houver uma ferramenta que nos mostre quais sites são confiáveis, quais conteúdos são úteis e relevantes para nós. É por isso que o Google existe e classifica os sites em seus resultados de pesquisa.
A indexação se torna uma parte indispensável de como os mecanismos de busca em geral e o Google em particular funcionam. Ele ajuda a identificar palavras e expressões que melhor descrevem uma página e, em geral, contribui para a classificação da página e do site. Para aparecer na primeira página do Google seu site, incluindo páginas da web e arquivos digitais como vídeos, imagens e documentos, primeiro precisa ser indexado.
A indexação é um pré-requisito para que os sites tenham uma boa classificação nos mecanismos de pesquisa em geral e no Google em particular. Usando palavras-chave, os sites podem ser melhor vistos e descobertos depois de serem indexados e classificados pelos motores de busca. Isso abre portas para mais visitantes, assinantes e clientes em potencial para seu site e negócios.
O melhor lugar para esconder um cadáver é a página dois do Google.
Embora ter muitas páginas indexadas não aumente automaticamente a classificação de seus sites, se o conteúdo dessas páginas for de alta qualidade, você também poderá obter um impulso em termos de SEO.
Por que e como bloquear o mecanismo de pesquisa de indexar conteúdo
Embora a indexação seja ótima para proprietários de sites e empresas, há páginas que você pode não querer que apareçam nos resultados de pesquisa. você pode correr o risco de expor arquivos e conteúdo confidenciais na Internet também. Sem senhas ou autenticação, o conteúdo privado corre o risco de exposição e acesso não autorizado se os bots tiverem rédea solta sobre as pastas e arquivos do seu site.
No início dos anos 2000, os hackers usaram a pesquisa do Google para exibir informações de cartão de crédito de sites com consultas de pesquisa simples. Essa falha de segurança foi usada por muitos hackers para roubar informações de cartões de sites de comércio eletrônico.
Outra falha de segurança recente aconteceu no ano passado com box.com , um popular sistema de armazenamento em nuvem. A falha de segurança foi exposta por Markus Neis, gerente de inteligência de ameaças da Swisscom. Ele relatou que explorações simples de mecanismos de pesquisa, incluindo Google e Bing, podem expor arquivos e informações confidenciais de muitas empresas e clientes individuais.
Casos como esses acontecem online e podem causar perda de vendas e receita para os empresários. Para sites corporativos, de comércio eletrônico e de membros, é extremamente importante primeiro bloquear a indexação de pesquisa de conteúdo confidencial e arquivos privados e, em seguida, provavelmente colocá-los atrás de um sistema de autenticação de usuário decente.
Vamos dar uma olhada em como você pode controlar quais conteúdos e arquivos podem ser rastreados e indexados pelo Google e outros mecanismos de pesquisa.
1. Usando Robots.txt para imagens
Robots.txt é um arquivo localizado na raiz do seu site que fornece aos bots do Google, Bing e outros mecanismos de pesquisa instruções sobre o que rastrear e o que não deve ser feito. Embora o robots.txt geralmente seja usado para controlar o tráfego de rastreamento e os rastreadores da Web (dispositivos móveis versus computadores), ele também pode ser usado para impedir que imagens apareçam nos resultados de pesquisa do Google.
Um arquivo robots.txt de sites normais do WordPress ficaria assim:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
O arquivo robots.txt padrão começa com uma instrução para agente do usuário e um símbolo de asterisco. O asterisco é uma instrução para que todos os bots que chegam ao site sigam todas as instruções fornecidas abaixo.
Mantenha os bots longe de arquivos digitais específicos usando o Robot.txt
Robots.txt também pode ser usado para parar o rastreamento de arquivos digitais como PDFs, JPEG ou MP4. Para bloquear o rastreamento de pesquisa de arquivos PDF e JPEG, isso deve ser adicionado ao arquivo robots.txt:
Arquivos PDF
User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf$ # Block pdf files from all bots. Albeit non-standard, it works for major search engines.
Imagens
User-agent: Googlebot-Image
Disallow: /images/cats.jpg #Block cats.jpg image for Googlebot specifically.
Caso você queira impedir que todas as imagens .GIF sejam indexadas e exibidas na pesquisa de imagens do Google, permitindo outros formatos de imagem, como JPEG e PNG, você deve usar as seguintes regras:
User-agent: Googlebot-Image
Disallow: /*.gif$
Importante: os snippets acima simplesmente impedirão que seu conteúdo seja indexado por sites de terceiros, como o Google. Eles ainda são acessíveis se alguém souber onde procurar. Para tornar os arquivos privados para que ninguém possa acessá-los, você precisaria usar outro método, como esses plugins de restrição de conteúdo .
O Googlebot-Image pode ser usado para impedir que imagens e uma extensão de imagem específica apareçam na pesquisa de imagens do Google. Caso você queira excluí-los de todas as pesquisas do Google, por exemplo, pesquisa na web e imagens, é aconselhável usar um agente de usuário do Googlebot.
Outros agentes de usuário do Google para diferentes elementos em um site incluem o Googlebot-Video para vídeos de aplicação na seção de vídeos do Google na web. Da mesma forma, o uso do agente de usuário do Googlebot impedirá que todos os vídeos sejam exibidos nos vídeos do Google, na pesquisa na Web ou na pesquisa na Web para dispositivos móveis.
Lembre-se de que usar o Robots.txt não é um método apropriado para bloquear arquivos e conteúdo confidenciais ou confidenciais devido às seguintes limitações:
- Robots.txt só pode instruir rastreadores bem comportados; outros mecanismos de pesquisa e bots não compatíveis podem simplesmente ignorar suas instruções.
- Robots.txt não impede que seu servidor envie essas páginas e arquivos para usuários não autorizados mediante solicitação.
- Os mecanismos de pesquisa ainda podem encontrar e indexar a página e o conteúdo que você bloqueia caso estejam vinculados a outros sites e fontes.
- Robots.txt é acessível a qualquer pessoa que possa ler todas as instruções fornecidas e acessar esses conteúdos e arquivos diretamente
Para bloquear a indexação de pesquisa e proteger suas informações privadas com mais eficiência, use os métodos a seguir.
2. Usando metatag sem índice para páginas
O uso de metatag sem índice é um método adequado e mais eficaz para bloquear a indexação de pesquisa de conteúdo sensível em seu site. Ao contrário do robots.txt, a metatag sem índice é colocada na seção <head> de uma página da Web com uma tag HTML muito simples:
<html>
<head>
<title>…</title>
<meta name=”robots” content=”noindex”>
</head>
Qualquer página com esta instrução no cabeçalho não aparecerá no resultado de pesquisa do Google. Outras diretivas , como nofollow e notranslate, também podem ser usadas para dizer aos rastreadores da Web para não rastrear os links e oferecer tradução dessa página, respectivamente.
Você pode instruir vários rastreadores usando várias metatags em uma página da seguinte maneira:
<html>
<head>
<title>…</title>
<meta name=”googlebot” content=”nofollow”>
<meta name=”googlebot-news” content=”nosnippet”>
</head>
Existem duas maneiras de adicionar este código ao seu site. Sua primeira opção é criar um tema filho do WordPress , então em seu functions.php você pode usar o gancho de ação wp_head do WordPress para inserir um noindex ou qualquer outra metatag. Abaixo está um exemplo de como você não indexaria sua página de login.
add_action( ‘wp_head’, function() {
if ( is_page( ‘login’ ) ) {
echo ‘<meta name=”robots” content=”noindex”>’;
}
} );
Sua segunda opção é usar seu plugin de SEO para controlar a visibilidade de uma página. Por exemplo, com o Yoast SEO, você pode ir para a seção de configurações avançadas em uma página e simplesmente escolher “Não” para as opções para permitir que o mecanismo de pesquisa mostre a página:
3. Usando o cabeçalho HTTP X-Robots-Tag para outros arquivos
O X-Robots-Tag oferece mais flexibilidade para bloquear a indexação de pesquisa de seu conteúdo e arquivos. Em particular, quando comparada à metatag sem índice, ela pode ser usada como a resposta do cabeçalho HTTP para qualquer URL. Por exemplo, você pode usar o X-Robots-Tag para arquivos de imagem, vídeo e documentos onde não é possível usar as metatags robots.
Você pode ler o guia completo de metatags de robôs do Google , mas veja como instruir os rastreadores a não seguir e indexar uma imagem JPEG usando o X-Robots-Tag em sua resposta HTTP:
HTTP/1.1 200 OK
Content-type: image/jpeg
Date: Sat, 27 Nov 2018 01:02:09 GMT
(…)
X-Robots-Tag: noindex, nofollow
(…)
Quaisquer diretivas que possam ser usadas com uma metatag de robôs também são aplicáveis
HTTP/1.1 200 OK
Date: Tue, 21 Sep 2018 21:09:19 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(…)
É importante observar que os bots dos mecanismos de pesquisa descobrem as metatags Robots e os cabeçalhos HTTP X-Robots-Tag durante o processo de rastreamento. Portanto, se você deseja que esses bots sigam suas instruções para não seguir ou indexar qualquer conteúdo e documentos confidenciais, não deve impedir o rastreamento desses URLs de página e arquivo.
Se eles forem impedidos de rastrear usando o arquivo robots.txt, suas instruções sobre indexação não serão lidas e, portanto, ignoradas. Como resultado, caso outros sites tenham links para seu conteúdo e documentos, eles ainda serão indexados pelo Google e outros mecanismos de pesquisa.
4. Usando regras .htaccess para servidores Apache
Você também pode adicionar o cabeçalho HTTP X-Robots-Tag ao seu arquivo .htaccess para bloquear rastreadores de páginas de indexação e conteúdo digital do seu site hospedado em um servidor Apache. Ao contrário das metatags sem índice, as regras .htaccess podem ser aplicadas a um site inteiro ou a uma pasta específica. Seu suporte a expressões regulares oferece flexibilidade ainda maior para você direcionar vários tipos de arquivos de uma só vez.
Para impedir que o Googlebot, o Bing e o Baidu rastreiem um site ou diretório especial, use as seguintes regras:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* – [R=403,L]
Para bloquear a indexação de pesquisa de todos os arquivos .txt, .jpg, .jpeg, .pdf em todo o site, adicione o seguinte snippet:
<Files ~ “\.(txt|jpg|jpeg|pdf)$”>
Header set X-Robots-Tag “noindex, nofollow”
</FilesMatch>
5. Usando autenticação de página com nome de usuário e senha
Os métodos acima impedirão que seu conteúdo e documentos particulares apareçam nos resultados de pesquisa do Google. No entanto, qualquer usuário com o link pode acessar seu conteúdo e acessar seus arquivos diretamente. Por segurança, é altamente recomendável que você configure a autenticação adequada com nome de usuário e senha, bem como permissão de acesso à função.
Por exemplo, páginas que incluam perfis pessoais de funcionários e documentos confidenciais que não devem ser acessados
Para fazer isso com o WordPress, basta definir a visibilidade de uma postagem como protegida por senha . Dessa forma, você pode selecionar uma senha necessária para visualizar o conteúdo dessa página. Isso é bastante fácil de fazer em uma base por postagem/página. Para uma privacidade mais abrangente do site, tente adicionar um desses plugins de associação do WordPress ao seu site.
Lembre-se de que páginas protegidas por senha ou ocultas de mecanismos de pesquisa e visitantes não protegem necessariamente os documentos, vídeos e imagens anexados ao seu conteúdo. Para proteção real de seus uploads de arquivos do WordPress, um serviço premium, como