A Cloudflare, que ajuda a bloquear rastreadores, apresenta a «API de rastreadores para todo o site com um clique», com suporte perfeito para RAG, atualizações incrementais e treinamento de modelos

動區BlockTempo

Cloudflare em 10 de março lançou um novo endpoint /crawl para o seu serviço de Renderização de Navegador (atualmente em Open Beta). Esta nova funcionalidade permite aos desenvolvedores fazerem uma única chamada API para rastrear um site completo, convertendo automaticamente o conteúdo para HTML, Markdown ou JSON estruturado, oferecendo uma ferramenta poderosa e compatível para construir conjuntos de dados de treino de IA e pipelines RAG (Recuperação Aumentada por Geração).
(Resumindo: Grande falha da Cloudflare causou uma grande paralisação global da internet, será que a “arquitetura descentralizada” é o futuro da infraestrutura?)
(Informação adicional: 24 horas após a falha da Cloudflare: por que a internet “quebra” tão facilmente? Riscos centralizados para Web3 e RWA no futuro)

Índice do artigo

Alternar

  • Operações assíncronas, suporte a Markdown e JSON estruturado
  • Foca em “bom menino” crawler, estrita conformidade e mecanismos de proteção
  • Rastreamento incremental para economia de custos, plano gratuito disponível

Com o crescimento explosivo de IA generativa e tecnologia RAG (Recuperação Aumentada por Geração), obter dados de sites de forma eficiente e legal tornou-se o principal desafio para os desenvolvedores. Para isso, o gigante de infraestrutura de rede Cloudflare anunciou oficialmente em 10 de março uma nova funcionalidade revolucionária para seu serviço de Renderização de Navegador: um novo endpoint /crawl API.

Atualmente em fase de testes abertos (Open Beta), essa funcionalidade permite que os desenvolvedores “façam uma única chamada API para rastrear um site inteiro”.

Operações assíncronas, suporte a Markdown e JSON estruturado

De acordo com o anúncio da Cloudflare, a nova API de rastreamento usa um modo de operação assíncrono. Os desenvolvedores só precisam enviar uma URL inicial, e o sistema retornará um ID de tarefa (Job ID), enquanto um navegador sem cabeça (Headless Browser) automaticamente descobre e renderiza as páginas em segundo plano. Os desenvolvedores podem consultar o progresso e os resultados usando esse ID a qualquer momento.

Para integrar perfeitamente ao fluxo de trabalho atual de desenvolvimento de IA, a API oferece múltiplos formatos de saída. Além do HTML tradicional, ela pode gerar diretamente Markdown, muito apreciado por grandes modelos de linguagem (LLMs), e JSON estruturado, alimentado por Workers AI. Isso reduz significativamente o tempo gasto na limpeza e conversão de dados pelos desenvolvedores.

Foca em “bom menino” crawler, estrita conformidade e mecanismos de proteção

Diferente de muitos crawlers maliciosos que tentam contornar proteções, a endpoint /crawl da Cloudflare enfatiza “conformidade e transparência”. A empresa destaca que o endpoint é um agente assinado (Signed-agent), que por padrão segue rigorosamente as instruções do arquivo robots.txt do site alvo (incluindo limites de atraso de rastreamento), além de respeitar as diretrizes de “Controle de Rastreamento de IA” da própria Cloudflare.

Além disso, a Cloudflare afirma que essa ferramenta “se identifica como robô” e não pode contornar os sistemas de detecção de robôs ou CAPTCHAs da Cloudflare. Essa configuração garante que o comportamento do crawler não viole a vontade dos proprietários dos sites ou sobrecarregue os servidores.

Rastreamento incremental para economia de custos, plano gratuito disponível

Para aumentar a eficiência e reduzir custos, a API também possui várias funções avançadas de controle:

  • Rastreamento incremental: suporte aos parâmetros modifiedSince e maxAge, que permitem pular páginas não alteradas ou recentemente rastreadas, economizando recursos de processamento.
  • Controle de escopo detalhado: desenvolvedores podem definir profundidade de rastreamento, limite de páginas, e usar curingas (Wildcards) para incluir ou excluir URLs específicas.
  • Modo estático (Static mode): para sites puramente estáticos que não requerem renderização JavaScript, pode-se configurar render: false para pular o processo de inicialização do navegador sem cabeça, permitindo uma captura extremamente rápida.

Atualmente, essa poderosa funcionalidade de rastreamento está disponível para usuários do plano gratuito e pago do Cloudflare Workers. Para equipes que precisam monitorar conteúdo de sites regularmente, coletar dados para pesquisa ou construir bases de conhecimento de IA empresariais, representa uma atualização fundamental de infraestrutura altamente atraente.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários