«

»

fev 11

Sobre a sintaxe do “robots.txt”

Essas duas linhas juntas são consideradas como uma única entrada no arquivo em que a regra Disallow se aplica somente aos user agents especificados acima dela. É possível incluir o número de entradas que você desejar, sendo que várias linhas Disallow podem ser aplicadas a vários user agents, tudo em uma só entrada.É possível definir que o comando User-agent seja aplicado a todos os rastreadores da Web listando um asterisco (*) como no exemplo abaixo:


User-agent: *

Bloquear…

Amostra

O site inteiro com umabarra (/): Disallow: /
Um diretório e seu conteúdo, colocando uma barra após o nome do diretório: Disallow: /sample-directory/
Uma página da Web, listando a página depois da barra: Disallow: /private_file.html
Uma imagem específica das Imagens do Google: User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Todas as imagens de seu site das Imagens do Google: User-agent: Googlebot-Image Disallow: /
Arquivos de um tipo específico (por exemplo, .gif): User-agent: Googlebot Disallow: /*.gif$
Páginas no seu site, mas exibir anúncios do Google AdSense nessas páginas, bloquear os rastreadores da Web que não sejam Mediapartners-Google. Essa implementação oculta suas páginas dos resultados da pesquisa, mas o rastreador da Web Mediapartners-Google ainda pode analisá-los para decidir que anúncios exibir para os visitantes do seu site. User-agent: * Disallow: / User-agent: Mediapartners-Google

Allow: /

As diretivas diferenciam caracteres maiúsculos e minúsculos. Por exemplo, Bloquear: /arquivo.aspbloquearia http://www.exemplo.com.br/arquivo.asp, mas permitiriahttp://www.exemplo.com/Arquivo.asp. O Googlebot também ignora espaços em branco e diretivas desconhecidas no robots.txt.

Regra de correspondência de padrões

Amostra

Para bloquear qualquer sequência de caracteres, use um asterisco (*). Por exemplo, o código de amostra bloqueia o acesso a todos os subdiretórios que começam com a palavra “privado”: User-agent: Googlebot Disallow: /private*/
Para bloquear o acesso a todos os URLs que incluem pontos de interrogação (?). Por exemplo, o código de amostra bloqueia URLs que começam com seu nome de domínio, seguido por qualquer string, seguida por um ponto de interrogação e terminando em qualquer string: User-agent: Googlebot Disallow: /*?
Para bloquear todos os URLs que terminam de uma forma específica, use $. Por exemplo, o código de amostra bloqueia quaisquer URLs que terminam com.xls: User-agent: Googlebot Disallow: /*.xls$
Para bloquear padrões com as diretivas Permitir e Bloquear, consulte a amostra à direita. Neste exemplo, um ? indica um código de sessão. Os URLs que contêm esses códigos geralmente devem ser bloqueados do Google para impedir que os rastreadores da Web rastreiem páginas duplicadas. Enquanto isso, se alguns URLs terminando com ? forem versões da página que você deseja incluir, use a seguinte abordagem de combinação das diretivas Permitir e Bloquear:

  1. A diretiva Allow: /*?$ permite os URLs que terminam em ?. Mais especificamente, permite os URLs que começam com o nome do seu domínio, seguido por uma string, seguida por um ?, sem caracteres depois do ?.
  2. A diretiva Disallow: / *? bloqueia todos os URLs que incluem um ?. Mais especificamente, bloqueia os URLs que começam com o nome do seu domínio, seguido por uma string, seguida por um ponto de interrogação, seguido por uma string.
User-agent: * Allow: /*?$ Disallow: /*?