Como impedir a indexação de um site no robots.txt: instruções e recomendações

2025 Autor: Trinity Chesterton | [email protected]. Última modificação: 2025-01-23 10:12

O trabalho de um otimizador de SEO é muito grande. Os iniciantes são aconselhados a anotar o algoritmo de otimização para não perder nenhuma etapa. Caso contrário, dificilmente a promoção será considerada bem-sucedida, pois o site apresentará constantemente falhas e erros que terão que ser corrigidos por um longo tempo.

Uma das etapas de otimização é trabalhar com o arquivo robots.txt. Todo recurso deve ter este documento, pois sem ele será mais difícil lidar com a otimização. Ele executa muitas funções que você terá que entender.

Assistente de Robô

O arquivo robots.txt é um documento de texto simples que pode ser visualizado no Bloco de Notas padrão do sistema. Ao criá-lo, você deve definir a codificação para UTF-8 para que possa ser lido corretamente. O arquivo funciona com os protocolos http, https e FTP.

Este documento é um assistente para pesquisar robôs. Caso você não saiba, todo sistema usa "spiders" que rastreiam rapidamente a World Wide Web para retornar sites relevantes para consultas.usuários. Esses robôs devem ter acesso aos dados do recurso, robots.txt funciona para isso.

Para que os spiders encontrem seu caminho, você precisa enviar o documento robots.txt para o diretório raiz. Para verificar se o site possui esse arquivo, digite “https://site.com.ua/robots.txt” na barra de endereços do navegador. Em vez de "site.com.ua", você precisa inserir o recurso necessário.

Funções de documentos

O arquivo robots.txt fornece aos rastreadores vários tipos de informações. Ele pode dar acesso parcial para que a "aranha" verifique elementos específicos do recurso. O acesso total permite verificar todas as páginas disponíveis. Um banimento completo impede que os robôs comecem a checar, e eles saem do site.

Após visitar o recurso, as "aranhas" recebem uma resposta adequada à solicitação. Pode haver vários deles, tudo depende das informações no robots.txt. Por exemplo, se a verificação for bem-sucedida, o robô receberá o código 2xx.

Talvez o site tenha sido redirecionado de uma página para outra. Neste caso, o robô recebe o código 3xx. Se esse código ocorrer várias vezes, o spider o seguirá até receber outra resposta. Embora, como regra, ele use apenas 5 tentativas. Caso contrário, o popular erro 404 aparecerá.

Se a resposta for 4xx, o robô poderá rastrear todo o conteúdo do site. Mas no caso do código 5xx, a verificação pode parar completamente, pois isso geralmente indica erros temporários do servidor.

Para quêprecisa de robots.txt?

Como você deve ter adivinhado, este arquivo é o guia dos robôs para a raiz do site. Agora é usado para restringir parcialmente o acesso a conteúdo impróprio:

páginas com informações pessoais dos usuários;
sites espelhos;
resultados da pesquisa;
formulários de envio de dados, etc.

Se não houver nenhum arquivo robots.txt na raiz do site, o robô rastreará absolutamente todo o conteúdo. Assim, dados indesejados podem aparecer nos resultados da pesquisa, o que significa que você e o site sofrerão. Se houver instruções especiais no documento robots.txt, a "aranha" as seguirá e fornecerá as informações desejadas pelo proprietário do recurso.

Trabalhando com um arquivo

Para usar o robots.txt para bloquear a indexação do site, você precisa descobrir como criar esse arquivo. Para fazer isso, siga as instruções:

Cria um documento no Notepad ou Notepad++.
Defina a extensão do arquivo ".txt".
Digite os dados e comandos necessários.
Salve o documento e carregue-o na raiz do site.

Como você pode ver, em uma das etapas é necessário definir comandos para robôs. Eles são de dois tipos: permitir (Permitir) e proibir (Disallow). Além disso, alguns otimizadores podem especificar a velocidade de rastreamento, o host e o link para o mapa de páginas do recurso.

Para começar a trabalhar com robots.txt e bloquear completamente a indexação do site, você também deve entender os símbolos usados. Por exemplo, em um documentouse "/", que indica que todo o site está selecionado. Se "" for usado, uma sequência de caracteres será necessária. Desta forma, será possível especificar uma pasta específica que pode ser escaneada ou não.

Recurso de bots

"Aranhas" para motores de busca são diferentes, então se você trabalha para vários motores de busca ao mesmo tempo, então você terá que levar esse momento em consideração. Seus nomes são diferentes, o que significa que se você quiser entrar em contato com um robô específico, você terá que especificar seu nome: “User Agent: Yandex” (sem aspas).

Se você deseja definir diretivas para todos os mecanismos de pesquisa, você precisa usar o comando: "User Agent: " (sem aspas). Para bloquear adequadamente a indexação do site usando o robots.txt, você precisa conhecer as especificidades dos mecanismos de pesquisa populares.

O fato é que os motores de busca mais populares Yandex e Google possuem vários bots. Cada um deles tem suas próprias tarefas. Por exemplo, Yandex Bot e Googlebot são as principais "aranhas" que rastreiam o site. Conhecendo todos os bots, será mais fácil ajustar a indexação do seu recurso.

Exemplos

Então, com a ajuda do robots.txt, você pode fechar o site da indexação com comandos simples, o principal é entender o que você precisa especificamente. Por exemplo, se você quiser que o Googlebot não se aproxime do seu recurso, você precisa dar a ele o comando apropriado. Será parecido com: "User-agent: Googlebot Disallow: /" (sem aspas).

Agora precisamos entender o que está neste comando e como ele funciona. Então, "Agente do usuário"é usado para usar uma chamada direta para um dos bots. Em seguida, indicamos para qual, no nosso caso é o Google. O comando "Disallow" deve iniciar em uma nova linha e proibir o robô de entrar no site. O símbolo de barra neste caso indica que todas as páginas do recurso estão selecionadas para a execução do comando.

No robots.txt, você pode desabilitar a indexação para todos os mecanismos de busca com um simples comando: "User-agent:Disallow: /" (sem aspas). O caractere asterisco neste caso denota todos os robôs de busca. Normalmente, esse comando é necessário para pausar a indexação do site e iniciar o trabalho principal nele, o que poderia afetar a otimização.

Se o recurso for grande e tiver muitas páginas, geralmente contém informações proprietárias que são indesejáveis para divulgação ou podem afetar negativamente a promoção. Nesse caso, você precisa entender como fechar a página da indexação em robots.txt.

Você pode ocultar uma pasta ou um arquivo. No primeiro caso, você precisa começar de novo entrando em contato com um bot específico ou com todos, então usamos o comando “User-agent” e abaixo especificamos o comando “Disallow” para uma pasta específica. Ficará assim: "Disallow: / folder /" (sem aspas). Dessa forma, você oculta a pasta inteira. Se ele contém algum arquivo importante que você gostaria de mostrar, então você precisa escrever o comando abaixo: “Allow: /folder/file.php” (sem aspas).

Verificar arquivo

Se estiver usando robots.txt para fechar o site deVocê conseguiu indexar, mas não sabe se todas as suas diretivas funcionaram corretamente, você pode verificar a exatidão do trabalho.

Primeiro, você precisa verificar o posicionamento do documento novamente. Lembre-se que deve estar exclusivamente na pasta raiz. Se estiver na pasta raiz, não funcionará. Em seguida, abra o navegador e digite o seguinte endereço: “https://seusite. com/robots.txt (sem aspas). Se você receber um erro em seu navegador da web, o arquivo não está onde deveria estar.

Diretivas podem ser verificadas em ferramentas especiais que são usadas por quase todos os webmasters. Estamos falando dos produtos Google e Yandex. Por exemplo, no Google Search Console há uma barra de ferramentas onde você precisa abrir "Rastrear" e, em seguida, executar a "Ferramenta de inspeção de arquivos Robots.txt". Você precisa copiar todos os dados do documento para a janela e iniciar a digitalização. Exatamente a mesma verificação pode ser feita no Yandex. Webmaster.

Recomendado:

Como configurar o Robots.txt corretamente?

Na prática, os arquivos robots.txt indicam se determinados agentes de usuário, responsáveis pela depuração de software, podem rastrear partes de um site. Essas instruções de desvio são definidas negando/permitindo o comportamento de certos bots personalizados

Indexação do site nos buscadores. Como o site é indexado em "Yandex" e "Google"

Você deseja que seu site apareça nas consultas de resultados dos mecanismos de pesquisa? Em seguida, deve ser processado pelos motores de busca Rambler, Yandex, Google, Yahoo e assim por diante. Você deve informar os mecanismos de pesquisa (spiders, sistemas) sobre a existência do seu site e eles o rastrearão no todo ou em parte

Indexação de página. Indexação rápida do site pelos motores de busca "Google" e "Yandex"

Um artigo sobre o que é indexação de página; como é realizada a indexação pelos mecanismos de pesquisa, bem como como acelerar a indexação do seu próprio site e como proibi-la

Indexação de um site em "Yandex": como tornar um site "delicioso" para um buscador?

Como atrair a atenção dos robôs Yandex, quanto tempo esperar e quais ferramentas usar? O que está impedindo seu projeto de iniciar com sucesso? Saiba tudo sobre indexação em 10 minutos. Como bônus - uma lista de verificação universal para quem precisa acelerar a indexação em 2-3 vezes

Como configurar um amplificador: instruções e recomendações. Como conectar um amplificador em um carro

Subwoofer é uma coisa indispensável para quem quer ter o prazer de ouvir música. Mas o problema é que a potência do rádio não é suficiente para o seu funcionamento normal. Você tem que conectar um amplificador. E a instalação é apenas metade da batalha. Você precisa saber como configurar o amplificador corretamente. Falaremos sobre isso e não apenas no artigo de hoje

Como impedir a indexação de um site no robots.txt: instruções e recomendações

Índice:

Assistente de Robô

Funções de documentos

Para quêprecisa de robots.txt?

Trabalhando com um arquivo

Recurso de bots

Exemplos

Verificar arquivo

Recomendado:

Como configurar o Robots.txt corretamente?

Indexação do site nos buscadores. Como o site é indexado em "Yandex" e "Google"

Indexação de página. Indexação rápida do site pelos motores de busca "Google" e "Yandex"

Indexação de um site em "Yandex": como tornar um site "delicioso" para um buscador?

Como configurar um amplificador: instruções e recomendações. Como conectar um amplificador em um carro

Telefone Motorola S350: especificações, fotos e comentários

O microfone do telefone não funciona: causas e soluções

Como fazer uma captura de tela na Huawei: as formas mais populares e eficazes

Como rastrear o iPhone: caminhos e segredos

Android não vê a unidade flash: causas, dicas e instruções para corrigir o problema

Protetor contra surtos Xiaomi: descrição, especificações e comentários

Os melhores smartphones com alto-falantes estéreo

Telefones Samsung com tela curva: uma visão geral dos modelos, prós e contras

Como encontrar "iPhone" de "Android": instruções passo a passo e dicas

Como baixar fotos do iPhone para o computador? Instrução

Conversores de frequência ABB: finalidade, vantagens, códigos de erro

Controlador de energia triac DIY

Ligação da máquina de lavar à rede: regras de segurança e procedimentos de trabalho

Geração distribuída: design, objetos, tendências e desenvolvimento, descrição de objetos

Thomas TWIN T1 Aquafilter aspirador: comentários de clientes