Como configurar o Robots.txt corretamente?

Índice:

Como configurar o Robots.txt corretamente?
Como configurar o Robots.txt corretamente?
Anonim

O txt Robots correto para o site html cria maquetes de ação para bots de mecanismos de pesquisa, informando a eles o que eles podem verificar. Esse arquivo é frequentemente chamado de Protocolo de Exclusão do Robô. A primeira coisa que os bots procuram antes de rastrear um site é o robots.txt. Ele pode apontar ou dizer ao Sitemap para não verificar determinados subdomínios. Quando você deseja que os mecanismos de pesquisa pesquisem o que é encontrado com mais frequência, o robots.txt não é necessário. É muito importante neste processo que o arquivo esteja formatado corretamente e não indexe a página do usuário com os dados pessoais do usuário.

Princípio de digitalização do robô

O princípio da varredura do robô
O princípio da varredura do robô

Quando um mecanismo de busca encontra um arquivo e vê um URL proibido, ele não o rastreia, mas pode indexá-lo. Isso ocorre porque, mesmo que os robôs não tenham permissão para visualizar o conteúdo, eles podem se lembrar de backlinks apontando para a URL proibida. Devido ao acesso bloqueado ao link, a URL aparecerá nos buscadores, mas sem fragmentos. Se umpara a estratégia de marketing de entrada, é necessário o txt correto de Robots para bitrix (Bitrix), eles fornecem verificação do site a pedido do usuário por scanners.

Por outro lado, se o arquivo não estiver formatado corretamente, isso pode fazer com que o site não apareça nos resultados da pesquisa e não seja encontrado. Os mecanismos de pesquisa não podem ignorar esse arquivo. Um programador pode visualizar o robots.txt de qualquer site acessando seu domínio e seguindo-o com robots.txt, por exemplo, www.domain.com/robots.txt. Usando uma ferramenta como a seção de otimização de SEO da Unamo, onde você pode inserir qualquer domínio, e o serviço mostrará informações sobre a existência do arquivo.

Restrições para digitalização:

  1. O usuário tem conteúdo desatualizado ou sensível.
  2. As imagens do site não serão incluídas nos resultados da pesquisa de imagens.
  3. O site ainda não está pronto para demonstração a ser indexado pelo robô.

Lembre-se de que as informações que um usuário deseja receber de um mecanismo de pesquisa estão disponíveis para qualquer pessoa que insira a URL. Não use este arquivo de texto para ocultar dados confidenciais. Se o domínio apresentar um erro 404 (não encontrado) ou 410 (passado), o buscador verifica o site apesar da presença de robots.txt, neste caso considera que o arquivo está f altando. Outros erros, como 500 (erro interno do servidor), 403 (proibido), expirado ou "não disponível", respeitam as instruções do robots.txt, mas o desvio pode ser atrasado até que o arquivo esteja disponível.

Criando um arquivo de pesquisa

Criando um arquivo de pesquisa
Criando um arquivo de pesquisa

MuitosProgramas CMS como o WordPress já possuem um arquivo robots.txt. Antes de configurar corretamente o Robots txt WordPress, o usuário precisa se familiarizar com seus recursos para descobrir como acessá-lo. Se o próprio programador criar o arquivo, ele deverá atender às seguintes condições:

  1. Deve estar em letras minúsculas.
  2. Use codificação UTF-8.
  3. Salvar em um editor de texto como arquivo (.txt).

Quando um usuário não sabe onde colocá-lo, ele entra em contato com o fornecedor do software do servidor da Web para saber como acessar a raiz de um domínio ou acessa o console do Google e faz o download. Com esta função, o Google também pode verificar se o bot está funcionando corretamente e a lista de sites que foram bloqueados usando o arquivo.

O formato principal do Robots txt correto para bitrix (Bitrix):

  1. Legend robots.txt.
  2. , adiciona comentários que são usados apenas como notas.
  3. Estes comentários serão ignorados pelos scanners junto com quaisquer erros de digitação do usuário.
  4. User-agent - indica em qual mecanismo de busca as instruções para o arquivo estão listadas.
  5. Adicionar um asterisco () informa aos scanners que as instruções são para todos.

Indicando um bot específico, por exemplo, Googlebot, Baiduspider, Applebot. Disallow informa aos rastreadores quais partes do site não devem ser rastreadas. Parece com isto: User-agent:. O asterisco significa "todos os bots". No entanto, você pode especificar páginas parabots. Para fazer isso, você precisa saber o nome do bot para o qual as recomendações foram definidas.

O txt de robôs correto para Yandex pode ser assim:

txt correto de robôs para Yandex
txt correto de robôs para Yandex

Se o bot não deve rastrear o site, você pode especificá-lo e, para encontrar os nomes dos agentes do usuário, é recomendável se familiarizar com os recursos online do useragentstring.com.

Otimização de página

Otimização de página
Otimização de página

As duas linhas a seguir são consideradas um arquivo robots.txt completo, e um único arquivo robots pode conter várias linhas de agentes de usuário e diretivas que desabilitam ou habilitam o rastreamento. O formato principal do txt correto do Robots:

  1. Agente do usuário: [nome de usuário do agente].
  2. Disallow: [string de URL que não é rastreada].

No arquivo, cada bloco de diretivas é exibido como discreto, separado por uma linha. No arquivo próximo ao diretório do usuário do agente, cada regra é aplicada a um conjunto específico de linhas separadas por seção. Se um arquivo tiver uma regra multiagente, o robô considerará apenas o grupo de instruções mais específico.

Sintaxe técnica

Sintaxe Técnica
Sintaxe Técnica

Pode ser considerado como a "linguagem" dos arquivos robots.txt. Existem cinco termos que podem existir neste formato, os principais incluem:

  1. User-agent - Rastreador da Web com instruções de rastreamento, geralmente um mecanismo de pesquisa.
  2. Disallow é um comando usado para dizer ao user agent para ignorar(omissão) de um URL específico. Existe apenas uma condição proibida para cada um.
  3. Permitir. Para o Googlebot que obtém acesso, até a página do usuário é negada.
  4. Crawl-delay - especifica quantos segundos o rastreador precisará antes de rastrear. Quando o bot não confirma, a velocidade é definida no console do Google.
  5. Sitemap - Usado para localizar quaisquer mapas XML associados a um URL.

Correspondências de padrões

Quando se trata de bloquear URLs ou permitir Robots txt válidos, as operações podem ser bastante complicadas, pois permitem que você use correspondência de padrões para cobrir vários parâmetros de URL possíveis. O Google e o Bing usam dois caracteres que identificam páginas ou subpastas que o SEO deseja excluir. Os dois caracteres são o asterisco () e o cifrão ($), onde:é um curinga que representa qualquer sequência de caracteres. $ - corresponde ao final do URL.

O Google oferece uma grande lista de possíveis sintaxes de modelo que explicam ao usuário como configurar corretamente um arquivo txt do Robots. Alguns casos de uso comuns incluem:

  1. Impedir que conteúdo duplicado apareça nos resultados de pesquisa.
  2. Manter todas as seções do site privadas.
  3. Salvar páginas internas de resultados de pesquisa com base na declaração aberta.
  4. Indicar localização.
  5. Impede que os mecanismos de pesquisa indexem determinadosarquivos.
  6. Especificar um atraso de rastreamento para interromper o recarregamento ao verificar várias áreas de conteúdo ao mesmo tempo.

Verificando a presença de um arquivo robô

Se não houver áreas no site que precisem ser rastreadas, o robots.txt não será necessário. Caso o usuário não tenha certeza de que este arquivo existe, ele precisa inserir o domínio raiz e digitá-lo no final da URL, algo assim: moz.com/robots.txt. Vários bots de pesquisa ignoram esses arquivos. No entanto, como regra, esses rastreadores não pertencem a mecanismos de pesquisa respeitáveis. Eles são o tipo de spammers, agregadores de e-mail e outros tipos de bots automatizados que são encontrados em abundância na Internet.

É muito importante lembrar que usar o padrão de exclusão de robôs não é uma medida de segurança eficaz. Na verdade, alguns bots podem começar com páginas onde o usuário os configura para o modo de varredura. Existem várias partes que entram no arquivo de exceção padrão. Antes de dizer ao robô em quais páginas ele não deve trabalhar, você precisa especificar com qual robô falar. Na maioria dos casos, o usuário usará uma declaração simples que significa "todos os bots".

Otimização SEO

Otimização SEO
Otimização SEO

Antes de otimizar, o usuário deve certificar-se de que não bloqueou nenhum conteúdo ou seções do site que precisem ser ignoradas. Links para páginas bloqueadas pelo txt correto do Robots não serão respeitados. Isso significa:

  1. Se eles não estiverem vinculados a outras páginas disponíveis para os motores de busca, por exemplo. Páginas,não bloqueado por robots.txt ou meta-robô, e os recursos relacionados não serão rastreados e, portanto, não poderão ser indexados.
  2. Nenhum link pode ser passado de uma página bloqueada para o destino do link. Se houver tal página, é melhor usar um mecanismo de bloqueio diferente do robots.txt.

Como outras páginas podem vincular diretamente a uma página contendo informações pessoais e você deseja bloquear esta página dos resultados de pesquisa, use um método diferente, como proteção por senha ou metadados noindex. Alguns mecanismos de pesquisa têm vários agentes de usuário. Por exemplo, o Google usa o Googlebot para pesquisas orgânicas e o Googlebot-Image para pesquisas de imagens.

A maioria dos agentes de usuário do mesmo mecanismo de pesquisa seguem as mesmas regras, portanto, não há necessidade de especificar diretivas para cada um dos vários rastreadores, mas poder fazer isso pode ajustar o rastreamento do conteúdo do site. O mecanismo de pesquisa armazena em cache o conteúdo do arquivo e normalmente atualiza o conteúdo em cache pelo menos uma vez por dia. Se o usuário alterar o arquivo e quiser atualizá-lo mais rápido do que o normal, ele poderá enviar o URL do robots.txt para o Google.

Mecanismos de busca

Verificando a existência de um arquivo robô
Verificando a existência de um arquivo robô

Para entender como o Robots txt funciona corretamente, você precisa conhecer os recursos dos mecanismos de pesquisa. Em suma, sua capacidade está no fato de enviarem "scanners", que são programas quenavegar na Internet para obter informações. Eles então armazenam algumas dessas informações para depois passar para o usuário.

Para muitas pessoas, o Google já é a Internet. Na verdade, eles estão certos, já que esta é talvez sua invenção mais importante. E embora os motores de busca tenham mudado muito desde a sua criação, os princípios subjacentes ainda são os mesmos. Os rastreadores, também conhecidos como "bots" ou "spiders", encontram páginas de bilhões de sites. Os mecanismos de pesquisa fornecem instruções sobre onde ir, enquanto sites individuais também podem se comunicar com bots e dizer a eles quais páginas específicas eles devem consultar.

Geralmente, os proprietários de sites não querem aparecer nos mecanismos de busca: páginas de administração, portais de backend, categorias e tags e outras páginas de informações. O arquivo robots.txt também pode ser usado para impedir que os mecanismos de pesquisa verifiquem as páginas. Resumindo, o robots.txt informa aos rastreadores da web o que fazer.

Páginas de banimento

Esta é a parte principal do arquivo de exclusão do robô. Com uma declaração simples, o usuário diz a um bot ou grupo de bots para não rastrear determinadas páginas. A sintaxe é simples, por exemplo, para negar acesso a tudo no diretório "admin" do site, escreva: Disallow: /admin. Essa linha impedirá que os bots rastreiem yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html e qualquer outra coisa no diretório admin.

Para desabilitar uma página, basta especificá-la na linha disallow: Disallow: /public/exception.html. Agora a página "exceção"não será migrado, mas todo o resto na pasta "pública" será.

Para incluir várias páginas, basta listá-las:

Diretórios e páginas
Diretórios e páginas

Estas quatro linhas do Robots txt correto para symphony se aplicarão a qualquer agente de usuário listado na parte superior da seçãorobots.txt para

Páginas de proibição
Páginas de proibição

Sitemap:

Outros comandos:live - não permite que rastreadores da web indexem cpresources/ ou provedor/.

User Agent:Não permitir: /cpresources/.

Negar: / vendedor / Não permitir: /.env.

Estabelecimento de padrões

O usuário pode especificar páginas específicas para diferentes bots combinando os dois elementos anteriores, é assim que se parece. Um exemplo do txt Robots correto para todos os mecanismos de pesquisa é apresentado abaixo.

Estabelecimento de padrões
Estabelecimento de padrões

As seções "admin" e "private" ficarão invisíveis para o Google e Bing, mas o Google ainda verá o diretório "secreto", enquanto o Bing não. Você pode especificar regras gerais para todos os bots usando o agente de usuário asterisco e, em seguida, fornecer instruções específicas aos bots nas seções a seguir. Com o conhecimento acima, o usuário pode escrever um exemplo do Robots txt correto para todos os motores de busca. Basta abrir seu editor de texto favorito e dizer aos bots que eles não são bem-vindos em certas partes do site.

Dicas para melhorar o desempenho do servidor

SublimeText éum editor de texto versátil e o padrão ouro para muitos programadores. Além disso, suas dicas de programação são baseadas em codificação eficiente. os usuários apreciam a presença de atalhos no programa. Se o usuário quiser ver um exemplo de arquivo robots.txt, deve ir a qualquer site e adicionar "/robots.txt" ao final. Aqui está parte do arquivo robots.txt GiantBicycles.

O programa possibilita a criação de páginas que os usuários não desejam exibir nos buscadores. E também tem algumas coisas exclusivas que poucas pessoas conhecem. Por exemplo, enquanto o arquivo robots.txt diz aos bots para onde não ir, o arquivo de mapa do site faz o oposto e os ajuda a encontrar o que estão procurando e, embora os mecanismos de pesquisa provavelmente já saibam onde o mapa do site está localizado, ele não obtém no caminho.

Existem dois tipos de arquivos: página HTML ou arquivo XML. Uma página HTML é aquela que mostra aos visitantes todas as páginas disponíveis em um site. Em seu próprio robots.txt, fica assim: Sitemap://www.makeuseof.com/sitemap_index.xml. Se o site não for indexado por mecanismos de pesquisa, embora tenha sido rastreado várias vezes por robôs da web, você precisa verificar se o arquivo está presente e se suas permissões estão definidas corretamente.

Por padrão, isso acontecerá com todas as instalações do SeoToaster, mas se necessário, você pode redefini-lo assim: Arquivo robots.txt - 644. Dependendo do servidor PHP, se isso não funcionar para o usuário, ele é recomendado tentar o seguinte: Arquivo robots.txt - 666.

Configurando o atraso da varredura

A diretiva de atraso de desvio informa certosmecanismos de pesquisa com que frequência eles podem indexar uma página no site. É medido em segundos, embora alguns mecanismos de pesquisa o interpretem de maneira um pouco diferente. Algumas pessoas veem o atraso de rastreamento 5 quando são instruídas a esperar cinco segundos após cada varredura para iniciar a próxima.

Outros interpretam isso como uma instrução para digitalizar apenas uma página a cada cinco segundos. O robô não pode digitalizar mais rápido para conservar a largura de banda do servidor. Se o servidor precisar corresponder ao tráfego, ele poderá definir um atraso de desvio. Em geral, na maioria dos casos, os usuários não precisam se preocupar com isso. É assim que o atraso de rastreamento de oito segundos é definido - Atraso de rastreamento: 8.

Mas nem todos os mecanismos de pesquisa obedecerão a essa diretiva, portanto, ao não permitir páginas, você pode definir diferentes atrasos de rastreamento para determinados mecanismos de pesquisa. Depois que todas as instruções do arquivo estiverem configuradas, você pode fazer o upload para o site, primeiro certifique-se de que seja um arquivo de texto simples e tenha o nome robots.txt e possa ser encontrado em yoursite.com/robots.txt.

Melhor bot para WordPress

Melhor Bot WordPress
Melhor Bot WordPress

Existem alguns arquivos e diretórios em um site WordPress que precisam ser bloqueados todas as vezes. Os diretórios que os usuários devem proibir são o diretório cgi-bin e os diretórios WP padrão. Alguns servidores não permitem acesso ao diretório cgi-bin, mas os usuários devem incluí-lo na diretiva disallow antes de configurar corretamente Robots txt WordPress

Diretórios padrão do WordPress,que devem bloquear são wp-admin, wp-content, wp-includes. Esses diretórios não contêm dados que são inicialmente úteis para os mecanismos de pesquisa, mas há uma exceção, ou seja, há um subdiretório chamado uploads no diretório wp-content. Este subdiretório deve ser permitido no arquivo robot.txt, pois inclui tudo o que é carregado usando o recurso de upload de mídia WP. O WordPress usa tags ou categorias para estruturar o conteúdo.

Se forem usadas categorias, então para fazer o Robots txt correto para Wordpress, conforme especificado pelo fabricante do programa, é necessário bloquear os arquivos de tags da pesquisa. Primeiro, eles verificam o banco de dados acessando o painel "Administration"> "Settings"> "Permalink".

Por padrão, a base é a tag, se o campo estiver vazio: Disallow: /tag /. Se uma categoria for usada, você deverá desativá-la no arquivo robot.txt: Disallow: /category/. Por padrão, a base é a tag, caso o campo esteja vazio: Disallow: /tag/. Se uma categoria for usada, você deverá desativá-la no arquivo robot.txt: Disallow: / category /.

Arquivos usados principalmente para exibir conteúdo, eles serão bloqueados pelo arquivo txt Robots correto para Wordpress:

Robots txt para wordpress
Robots txt para wordpress

Configuração básica do Joomla

Uma vez que o usuário tenha instalado o Joomla, você precisa ver a configuração correta do Joomla Robots txt na configuração global, que está localizada no painel de controle. Algumas configurações aqui são muito importantes para SEO. Primeiro encontre o nome do site e certifique-se de queo nome abreviado do site é usado. Em seguida, eles encontram um grupo de configurações à direita da mesma tela, chamado de configurações de SEO. O que definitivamente terá que mudar é o segundo: use um URL de reescrita.

Isso parece complicado, mas basicamente ajuda o Joomla a criar URLs mais limpos. Mais perceptível se você remover a linha index.php das URLs. Se você alterá-lo mais tarde, os URLs serão alterados e o Google não vai gostar. No entanto, ao alterar essa configuração, várias etapas devem ser executadas ao mesmo tempo para criar o robots txt correto para o Joomla:

  1. Encontre o arquivo htaccess.txt na pasta raiz do Joomla.
  2. Marque como.htaccess (sem extensão).
  3. Incluir o nome do site nos títulos das páginas.
  4. Encontre as configurações de metadados na parte inferior da tela de configuração global.

Robô na nuvem MODX

Robô na nuvem MODX
Robô na nuvem MODX

Anteriormente, o MODX Cloud fornecia aos usuários a capacidade de controlar o comportamento de permitir que o arquivo robots.txt fosse servido com base em uma alternância no painel. Embora isso fosse útil, era possível permitir acidentalmente a indexação em sites de teste/desenvolvimento alternando uma opção no Painel. Da mesma forma, foi fácil desativar a indexação no site de produção.

Hoje o serviço assume a presença de arquivos robots.txt no sistema de arquivos com a seguinte exceção: qualquer domínio que termine com modxcloud.com servirá como uma diretiva Disallow: /para todos os user agents, independente da presença ou ausência do arquivo. Os sites de produção que recebem tráfego real de visitantes precisarão usar seu próprio domínio se o usuário quiser indexar o site.

Algumas organizações usam o Robots txt correto para modx para executar vários sites a partir de uma única instalação usando Contexts. Um caso em que isso poderia ser aplicado seria um site de marketing público combinado com microsites de página de destino e possivelmente uma intranet não pública.

Tradicionalmente, isso tem sido difícil de fazer para instalações multiusuário, pois elas compartilham a mesma raiz de rede. Com o MODX Cloud, isso é fácil. Basta fazer upload de um arquivo extra para um site chamado robots-intranet.example.com.txt com o conteúdo a seguir e ele bloqueará a indexação com robôs que funcionam bem e todos os outros nomes de host retornarão aos arquivos padrão, a menos que haja outros nós de nome específicos.

Robots.txt é um arquivo importante que ajuda o usuário a criar um link para o site no Google, principais mecanismos de pesquisa e outros sites. Localizado na raiz de um servidor da Web, o arquivo instrui os robôs da Web a rastrear um site, definir quais pastas devem ou não indexar, usando um conjunto de instruções chamado Protocolo de exclusão de bot. Um exemplo do Robots txt correto para todos os motores de busca obots.txt é especialmente fácil de fazer com o SeoToaster. Um menu especial foi criado para ele no painel de controle, para que o bot nunca precise trabalhar demais para ter acesso.

Recomendado: