Cloudflare 于 3 月 10 日为其 Browser Rendering 服务推出全新的 /crawl 端点(目前为 Open Beta 阶段)。这项新功能允许开发者通过单一 API 调用来爬取整个网站,并能将内容自动转换为 HTML、Markdown 或结构化 JSON 格式,为构建 AI 训练数据集与 RAG(检索增强生成)管道提供了强大且合规的利器。
(前情提要:Cloudflare 重大故障致全球网络大规模瘫痪,“去中心化架构”才是基础设施建设的未来?)
(背景补充:Cloudflare 当机后 24 小时:网络为何“一下就瘫”?中心化风险到 Web3 与 RWA 未来)
本文目录
Toggle
随着生成式 AI 与 RAG(检索增强生成)技术的爆发式增长,如何高效且合规地获取网站资料,成为了开发者面临的首要挑战。对此,网络基础设施巨头 Cloudflare 于 3 月 10 日正式宣布,为其 Browser Rendering(浏览器渲染)服务推出一项杀手级新功能:全新的 /crawl API 端点。
这项目前处于公开测试(Open Beta)阶段的功能,主打让开发者“只需一次 API 调用,就能爬取整个网站”。
根据 Cloudflare 的公告,新的爬虫 API 采用异步(Asynchronous)运行模式。开发者只需提交一个起始网址,系统便会返回一个任务 ID(Job ID),并在后台通过无头浏览器(Headless Browser)自动发现与渲染网页。开发者可随时通过该 ID 查询爬取进度与结果。
为了完美对接目前的 AI 开发工作流程,该 API 提供多种输出格式。除了传统的 HTML 之外,还能直接输出深受 LLM(大型语言模型)喜爱的 Markdown 格式,以及由 Workers AI 驱动的结构化 JSON 格式。这将大幅减少开发者在资料清洗与格式转换上所耗费的时间。
与市面上许多试图绕过防护的恶意爬虫不同,Cloudflare 这次推出的 /crawl 端点主打“合规与透明”。官方强调,该端点是一个已签署的代理程序(Signed-agent),预设会严格遵守目标网站的 robots.txt 指令(包含爬取延迟限制),并且尊重 Cloudflare 自家的“AI 爬取控制(AI Crawl Control)”规范。
此外,Cloudflare 也明确表示,这款工具“会自我表明为机器人”,并且无法绕过 Cloudflare 的机器人检测系统或 Captcha 验证码。这项设计确保了爬虫行为不会对网站拥有者的意愿与服务器造成侵犯。
为了提升效率与降低成本,该 API 还内建了多项进阶控制功能:
目前,这项强大的爬虫功能已全面开放给 Cloudflare Workers 的“免费版”与“付费版”用户使用。这对于需要定期监控网站内容、搜集研究资料,或是打造企业级 AI 知识库的开发团队而言,无疑是一项极具吸引力的基础设施升级。