Como impedir a indexação de um site no robots.txt: instruções e recomendações

Índice:

Como impedir a indexação de um site no robots.txt: instruções e recomendações
Como impedir a indexação de um site no robots.txt: instruções e recomendações
Anonim

O trabalho de um otimizador de SEO é muito grande. Os iniciantes são aconselhados a anotar o algoritmo de otimização para não perder nenhuma etapa. Caso contrário, dificilmente a promoção será considerada bem-sucedida, pois o site apresentará constantemente falhas e erros que terão que ser corrigidos por um longo tempo.

Uma das etapas de otimização é trabalhar com o arquivo robots.txt. Todo recurso deve ter este documento, pois sem ele será mais difícil lidar com a otimização. Ele executa muitas funções que você terá que entender.

Assistente de Robô

O arquivo robots.txt é um documento de texto simples que pode ser visualizado no Bloco de Notas padrão do sistema. Ao criá-lo, você deve definir a codificação para UTF-8 para que possa ser lido corretamente. O arquivo funciona com os protocolos http, https e FTP.

Este documento é um assistente para pesquisar robôs. Caso você não saiba, todo sistema usa "spiders" que rastreiam rapidamente a World Wide Web para retornar sites relevantes para consultas.usuários. Esses robôs devem ter acesso aos dados do recurso, robots.txt funciona para isso.

Para que os spiders encontrem seu caminho, você precisa enviar o documento robots.txt para o diretório raiz. Para verificar se o site possui esse arquivo, digite “https://site.com.ua/robots.txt” na barra de endereços do navegador. Em vez de "site.com.ua", você precisa inserir o recurso necessário.

Trabalhando com robots.txt
Trabalhando com robots.txt

Funções de documentos

O arquivo robots.txt fornece aos rastreadores vários tipos de informações. Ele pode dar acesso parcial para que a "aranha" verifique elementos específicos do recurso. O acesso total permite verificar todas as páginas disponíveis. Um banimento completo impede que os robôs comecem a checar, e eles saem do site.

Após visitar o recurso, as "aranhas" recebem uma resposta adequada à solicitação. Pode haver vários deles, tudo depende das informações no robots.txt. Por exemplo, se a verificação for bem-sucedida, o robô receberá o código 2xx.

Talvez o site tenha sido redirecionado de uma página para outra. Neste caso, o robô recebe o código 3xx. Se esse código ocorrer várias vezes, o spider o seguirá até receber outra resposta. Embora, como regra, ele use apenas 5 tentativas. Caso contrário, o popular erro 404 aparecerá.

Se a resposta for 4xx, o robô poderá rastrear todo o conteúdo do site. Mas no caso do código 5xx, a verificação pode parar completamente, pois isso geralmente indica erros temporários do servidor.

Robôs de pesquisa
Robôs de pesquisa

Para quêprecisa de robots.txt?

Como você deve ter adivinhado, este arquivo é o guia dos robôs para a raiz do site. Agora é usado para restringir parcialmente o acesso a conteúdo impróprio:

  • páginas com informações pessoais dos usuários;
  • sites espelhos;
  • resultados da pesquisa;
  • formulários de envio de dados, etc.

Se não houver nenhum arquivo robots.txt na raiz do site, o robô rastreará absolutamente todo o conteúdo. Assim, dados indesejados podem aparecer nos resultados da pesquisa, o que significa que você e o site sofrerão. Se houver instruções especiais no documento robots.txt, a "aranha" as seguirá e fornecerá as informações desejadas pelo proprietário do recurso.

Trabalhando com um arquivo

Para usar o robots.txt para bloquear a indexação do site, você precisa descobrir como criar esse arquivo. Para fazer isso, siga as instruções:

  1. Cria um documento no Notepad ou Notepad++.
  2. Defina a extensão do arquivo ".txt".
  3. Digite os dados e comandos necessários.
  4. Salve o documento e carregue-o na raiz do site.

Como você pode ver, em uma das etapas é necessário definir comandos para robôs. Eles são de dois tipos: permitir (Permitir) e proibir (Disallow). Além disso, alguns otimizadores podem especificar a velocidade de rastreamento, o host e o link para o mapa de páginas do recurso.

Como fechar um site da indexação
Como fechar um site da indexação

Para começar a trabalhar com robots.txt e bloquear completamente a indexação do site, você também deve entender os símbolos usados. Por exemplo, em um documentouse "/", que indica que todo o site está selecionado. Se "" for usado, uma sequência de caracteres será necessária. Desta forma, será possível especificar uma pasta específica que pode ser escaneada ou não.

Recurso de bots

"Aranhas" para motores de busca são diferentes, então se você trabalha para vários motores de busca ao mesmo tempo, então você terá que levar esse momento em consideração. Seus nomes são diferentes, o que significa que se você quiser entrar em contato com um robô específico, você terá que especificar seu nome: “User Agent: Yandex” (sem aspas).

Se você deseja definir diretivas para todos os mecanismos de pesquisa, você precisa usar o comando: "User Agent: " (sem aspas). Para bloquear adequadamente a indexação do site usando o robots.txt, você precisa conhecer as especificidades dos mecanismos de pesquisa populares.

O fato é que os motores de busca mais populares Yandex e Google possuem vários bots. Cada um deles tem suas próprias tarefas. Por exemplo, Yandex Bot e Googlebot são as principais "aranhas" que rastreiam o site. Conhecendo todos os bots, será mais fácil ajustar a indexação do seu recurso.

Como o arquivo robots.txt funciona
Como o arquivo robots.txt funciona

Exemplos

Então, com a ajuda do robots.txt, você pode fechar o site da indexação com comandos simples, o principal é entender o que você precisa especificamente. Por exemplo, se você quiser que o Googlebot não se aproxime do seu recurso, você precisa dar a ele o comando apropriado. Será parecido com: "User-agent: Googlebot Disallow: /" (sem aspas).

Agora precisamos entender o que está neste comando e como ele funciona. Então, "Agente do usuário"é usado para usar uma chamada direta para um dos bots. Em seguida, indicamos para qual, no nosso caso é o Google. O comando "Disallow" deve iniciar em uma nova linha e proibir o robô de entrar no site. O símbolo de barra neste caso indica que todas as páginas do recurso estão selecionadas para a execução do comando.

Para que serve o robots.txt?
Para que serve o robots.txt?

No robots.txt, você pode desabilitar a indexação para todos os mecanismos de busca com um simples comando: "User-agent:Disallow: /" (sem aspas). O caractere asterisco neste caso denota todos os robôs de busca. Normalmente, esse comando é necessário para pausar a indexação do site e iniciar o trabalho principal nele, o que poderia afetar a otimização.

Se o recurso for grande e tiver muitas páginas, geralmente contém informações proprietárias que são indesejáveis para divulgação ou podem afetar negativamente a promoção. Nesse caso, você precisa entender como fechar a página da indexação em robots.txt.

Você pode ocultar uma pasta ou um arquivo. No primeiro caso, você precisa começar de novo entrando em contato com um bot específico ou com todos, então usamos o comando “User-agent” e abaixo especificamos o comando “Disallow” para uma pasta específica. Ficará assim: "Disallow: / folder /" (sem aspas). Dessa forma, você oculta a pasta inteira. Se ele contém algum arquivo importante que você gostaria de mostrar, então você precisa escrever o comando abaixo: “Allow: /folder/file.php” (sem aspas).

Verificar arquivo

Se estiver usando robots.txt para fechar o site deVocê conseguiu indexar, mas não sabe se todas as suas diretivas funcionaram corretamente, você pode verificar a exatidão do trabalho.

Primeiro, você precisa verificar o posicionamento do documento novamente. Lembre-se que deve estar exclusivamente na pasta raiz. Se estiver na pasta raiz, não funcionará. Em seguida, abra o navegador e digite o seguinte endereço: “https://seusite. com/robots.txt (sem aspas). Se você receber um erro em seu navegador da web, o arquivo não está onde deveria estar.

Como fechar uma pasta da indexação
Como fechar uma pasta da indexação

Diretivas podem ser verificadas em ferramentas especiais que são usadas por quase todos os webmasters. Estamos falando dos produtos Google e Yandex. Por exemplo, no Google Search Console há uma barra de ferramentas onde você precisa abrir "Rastrear" e, em seguida, executar a "Ferramenta de inspeção de arquivos Robots.txt". Você precisa copiar todos os dados do documento para a janela e iniciar a digitalização. Exatamente a mesma verificação pode ser feita no Yandex. Webmaster.

Recomendado: