Cloudflare em 10 de março lançou um novo endpoint /crawl para o seu serviço de Renderização de Navegador (atualmente em Open Beta). Esta nova funcionalidade permite aos desenvolvedores fazerem uma única chamada API para rastrear um site completo, convertendo automaticamente o conteúdo para HTML, Markdown ou JSON estruturado, oferecendo uma ferramenta poderosa e compatível para construir conjuntos de dados de treino de IA e pipelines RAG (Recuperação Aumentada por Geração).
(Resumindo: Grande falha da Cloudflare causou uma grande paralisação global da internet, será que a “arquitetura descentralizada” é o futuro da infraestrutura?)
(Informação adicional: 24 horas após a falha da Cloudflare: por que a internet “quebra” tão facilmente? Riscos centralizados para Web3 e RWA no futuro)
Índice do artigo
Alternar
Com o crescimento explosivo de IA generativa e tecnologia RAG (Recuperação Aumentada por Geração), obter dados de sites de forma eficiente e legal tornou-se o principal desafio para os desenvolvedores. Para isso, o gigante de infraestrutura de rede Cloudflare anunciou oficialmente em 10 de março uma nova funcionalidade revolucionária para seu serviço de Renderização de Navegador: um novo endpoint /crawl API.
Atualmente em fase de testes abertos (Open Beta), essa funcionalidade permite que os desenvolvedores “façam uma única chamada API para rastrear um site inteiro”.
De acordo com o anúncio da Cloudflare, a nova API de rastreamento usa um modo de operação assíncrono. Os desenvolvedores só precisam enviar uma URL inicial, e o sistema retornará um ID de tarefa (Job ID), enquanto um navegador sem cabeça (Headless Browser) automaticamente descobre e renderiza as páginas em segundo plano. Os desenvolvedores podem consultar o progresso e os resultados usando esse ID a qualquer momento.
Para integrar perfeitamente ao fluxo de trabalho atual de desenvolvimento de IA, a API oferece múltiplos formatos de saída. Além do HTML tradicional, ela pode gerar diretamente Markdown, muito apreciado por grandes modelos de linguagem (LLMs), e JSON estruturado, alimentado por Workers AI. Isso reduz significativamente o tempo gasto na limpeza e conversão de dados pelos desenvolvedores.
Diferente de muitos crawlers maliciosos que tentam contornar proteções, a endpoint /crawl da Cloudflare enfatiza “conformidade e transparência”. A empresa destaca que o endpoint é um agente assinado (Signed-agent), que por padrão segue rigorosamente as instruções do arquivo robots.txt do site alvo (incluindo limites de atraso de rastreamento), além de respeitar as diretrizes de “Controle de Rastreamento de IA” da própria Cloudflare.
Além disso, a Cloudflare afirma que essa ferramenta “se identifica como robô” e não pode contornar os sistemas de detecção de robôs ou CAPTCHAs da Cloudflare. Essa configuração garante que o comportamento do crawler não viole a vontade dos proprietários dos sites ou sobrecarregue os servidores.
Para aumentar a eficiência e reduzir custos, a API também possui várias funções avançadas de controle:
Atualmente, essa poderosa funcionalidade de rastreamento está disponível para usuários do plano gratuito e pago do Cloudflare Workers. Para equipes que precisam monitorar conteúdo de sites regularmente, coletar dados para pesquisa ou construir bases de conhecimento de IA empresariais, representa uma atualização fundamental de infraestrutura altamente atraente.