Entenda o que são os Web Crawlers, conceito que dá vida ao Google

Imagine que você é um bibliotecário e recebe o trabalho de catalogar, classificar e organizar os livros de uma biblioteca que tem bilhões de exemplares e cresce de forma ilimitada. Não acabou. Às vezes, os livros estão sem o sumário, são atualizados constantemente, algumas páginas estão faltando e, por incrível que pareça, tem livro brincando de pique esconde com você. Parece complicado? É mais ou menos esse o trabalho que uma engine de busca, como o Bing e o Google, tem. A única diferença é que nós trocamos os livros por domínios, sumários por sitemaps e as páginas por.… páginas mesmo. E para ajuda-los nessa tarefa foram desenvolvidos os Indexadores de páginas Web, também conhecidos como web crawlers, rastreadores, rastejadores, spiders ou robots que é onde a maior parte da mágica desses buscadores acontece.

Mas o que são Web Crawlers?

Basicamente, Web Crawlers são programas de computador que tem por objetivo vasculhar as páginas da Internet em buscas de informações e hiperlinks para outras páginas. Eles trabalham em um processo recursivo que segue algumas regras estabelecidas pelo seu programador. A ideia básica de um indexador é criar uma espécie de sumário ao mesmo tempo que extrai informações relevantes da página para posterior análise. O nome, peculiar, desse processo é rastejamento e é composto por vários algoritmos que determinam, entre outras coisas, a frequência com que um site é visitado e número de páginas que serão indexadas.

Googlebot em ação

Como funciona um rastreador Web

Os robôs partem de alguma URL conhecida, adiciona as URLs encontradas em uma fila e depois segue para a próxima. No meio do caminho, eles podem encontrar algumas armadilhas, como páginas que são geradas dinamicamente e até spam. Os desenvolvedores desses caras têm que ser espertos para contornar esses dois problemas já que, nesses casos, os indexadores irão perder tempo analisando páginas irrelevantes ao passo que existe um mundo de páginas interessantes que deixam de ser catalogadas.

Quais são os indexadores que existem atualmente

Existem milhares desses programas rodando em muitos tipos de aplicações e são a forma mais eficiente de vasculhar a Internet em busca de páginas, e-mails, imagens, vídeos, áudios, tweets, etc. Microsoft, Google e Yandex utilizam esse tipo de programa para rastrear páginas na web e alimentar os seus mecanismos de busca. Entre os principais spiders estão o Googlebot, DuckDuckBot, Bingbot, YandexBot, etc.

Web Crawlers gulosos

Vale ressaltar que os Web Crawlers são visitantes de websites e consomem quase tanto recurso quanto qualquer outro visitante. É uma preocupação dos administradores de sítios da Internet se prevenir contra indexadores gulosos, que consomem muito recursos do servidor onde os sites estão hospedados. Esses indexadores causam muito prejuízo, desde a recusa de serviço ou até uma bela de uma conta no final do mês quando se utiliza servidores que cobram pelo consumo.

Eu não sou um robô

Robot.txt

Para evitar esse tipo de contratempo, existe um arquivo chamado de robots.txt, que deve ser armazenado na raiz do site que você quer limitar o acesso dos rastreadores. Esse arquivo instrui os robôs sobre quais são as páginas que podem ser acessadas e as que não podem. Por isso recebe o nome de Protocolo de exclusão de robôs. Entretanto, os rastreadores podem ignorar esse arquivo e indexar todo as páginas do website de forma irrestrita, por isso fique atento.