Cloudflare vào ngày 10 tháng 3 đã ra mắt một điểm cuối /crawl hoàn toàn mới cho dịch vụ Browser Rendering của họ (hiện đang trong giai đoạn Open Beta). Tính năng mới này cho phép các nhà phát triển thực hiện việc thu thập dữ liệu toàn bộ trang web thông qua một API duy nhất, đồng thời tự động chuyển đổi nội dung sang định dạng HTML, Markdown hoặc JSON có cấu trúc, mang lại một công cụ mạnh mẽ và tuân thủ quy định để xây dựng bộ dữ liệu huấn luyện AI và pipeline RAG (truy xuất tăng cường sinh sinh).
(Thông tin tiền đề: Sự cố lớn của Cloudflare khiến mạng lưới toàn cầu bị tê liệt quy mô lớn, “kiến trúc phi tập trung” mới là tương lai của hạ tầng?)
(Bổ sung nền tảng: Sau 24 giờ Cloudflare gặp sự cố: Tại sao mạng lưới “một khi sập là tê liệt”? Rủi ro tập trung đến Web3 và RWA trong tương lai)
Mục lục bài viết
Chuyển đổi
Cùng với sự bùng nổ của AI tạo sinh và công nghệ RAG (truy xuất tăng cường sinh sinh), việc thu thập dữ liệu từ các trang web một cách hiệu quả và tuân thủ quy định đã trở thành thách thức hàng đầu đối với các nhà phát triển. Đáp lại, gã khổng lồ hạ tầng mạng Cloudflare ngày 10 tháng 3 chính thức công bố một tính năng mới mang tính đột phá cho dịch vụ Browser Rendering của họ: điểm cuối API /crawl hoàn toàn mới.
Tính năng này hiện đang trong giai đoạn thử nghiệm mở (Open Beta), nhằm giúp các nhà phát triển “chỉ cần một lần gọi API là có thể thu thập toàn bộ trang web”.
Theo thông báo của Cloudflare, API cào mới này hoạt động theo chế độ bất đồng bộ (Asynchronous). Các nhà phát triển chỉ cần gửi một URL bắt đầu, hệ thống sẽ trả về một mã nhiệm vụ (Job ID), và sau đó tự động phát hiện cũng như render trang web trong nền bằng trình duyệt không đầu (Headless Browser). Các nhà phát triển có thể kiểm tra tiến trình và kết quả thu thập bất cứ lúc nào thông qua ID này.
Để phù hợp hoàn hảo với quy trình phát triển AI hiện tại, API cung cấp nhiều định dạng đầu ra khác nhau. Ngoài HTML truyền thống, còn có thể xuất trực tiếp sang định dạng Markdown được các mô hình ngôn ngữ lớn (LLM) yêu thích, cũng như JSON có cấu trúc do Workers AI điều khiển. Điều này sẽ giảm đáng kể thời gian dành cho làm sạch dữ liệu và chuyển đổi định dạng của các nhà phát triển.
Khác với nhiều công cụ cào dữ liệu độc hại cố gắng vượt qua các biện pháp bảo vệ của thị trường, điểm cuối /crawl của Cloudflare lần này nhấn mạnh “tuân thủ và minh bạch”. Chính thức nhấn mạnh rằng, điểm cuối này là một agent đã ký (Signed-agent), mặc định sẽ nghiêm ngặt tuân thủ các chỉ thị robots.txt của trang đích (bao gồm giới hạn thời gian trễ khi cào), và tôn trọng quy định “Kiểm soát cào AI” của Cloudflare.
Ngoài ra, Cloudflare còn rõ ràng khẳng định, công cụ này “sẽ tự thể hiện là robot” và không thể vượt qua hệ thống phát hiện robot hoặc CAPTCHA của Cloudflare. Thiết kế này đảm bảo rằng hành vi cào dữ liệu không xâm phạm ý muốn của chủ sở hữu trang web hoặc gây quá tải cho máy chủ.
Để nâng cao hiệu quả và giảm chi phí, API còn tích hợp nhiều chức năng kiểm soát nâng cao:
Hiện tại, tính năng cào mạnh mẽ này đã được mở rộng toàn diện cho người dùng Cloudflare Workers ở cả phiên bản miễn phí và trả phí. Điều này đặc biệt hấp dẫn đối với các nhóm phát triển cần theo dõi nội dung trang web định kỳ, thu thập dữ liệu nghiên cứu hoặc xây dựng kho kiến thức AI doanh nghiệp, chính là một nâng cấp hạ tầng cực kỳ tiềm năng.