Cloudflare, người giúp bạn chặn web crawler, đã ra mắt "API Crawler Toàn Trang Một Cú Nhấp", hoàn toàn hỗ trợ RAG, cập nhật tă量và huấn luyện mô hình

動區BlockTempo

Cloudflare vào ngày 10 tháng 3 đã ra mắt một điểm cuối /crawl hoàn toàn mới cho dịch vụ Browser Rendering của họ (hiện đang trong giai đoạn Open Beta). Tính năng mới này cho phép các nhà phát triển thực hiện việc thu thập dữ liệu toàn bộ trang web thông qua một API duy nhất, đồng thời tự động chuyển đổi nội dung sang định dạng HTML, Markdown hoặc JSON có cấu trúc, mang lại một công cụ mạnh mẽ và tuân thủ quy định để xây dựng bộ dữ liệu huấn luyện AI và pipeline RAG (truy xuất tăng cường sinh sinh).
(Thông tin tiền đề: Sự cố lớn của Cloudflare khiến mạng lưới toàn cầu bị tê liệt quy mô lớn, “kiến trúc phi tập trung” mới là tương lai của hạ tầng?)
(Bổ sung nền tảng: Sau 24 giờ Cloudflare gặp sự cố: Tại sao mạng lưới “một khi sập là tê liệt”? Rủi ro tập trung đến Web3 và RWA trong tương lai)

Mục lục bài viết

Chuyển đổi

  • Hoạt động bất đồng bộ, hỗ trợ Markdown và JSON có cấu trúc
  • Tập trung vào “cào bé ngoan”, tuân thủ quy định và cơ chế bảo vệ
  • Thu thập gia tăng tiết kiệm chi phí, trải nghiệm với gói miễn phí

Cùng với sự bùng nổ của AI tạo sinh và công nghệ RAG (truy xuất tăng cường sinh sinh), việc thu thập dữ liệu từ các trang web một cách hiệu quả và tuân thủ quy định đã trở thành thách thức hàng đầu đối với các nhà phát triển. Đáp lại, gã khổng lồ hạ tầng mạng Cloudflare ngày 10 tháng 3 chính thức công bố một tính năng mới mang tính đột phá cho dịch vụ Browser Rendering của họ: điểm cuối API /crawl hoàn toàn mới.

Tính năng này hiện đang trong giai đoạn thử nghiệm mở (Open Beta), nhằm giúp các nhà phát triển “chỉ cần một lần gọi API là có thể thu thập toàn bộ trang web”.

Hoạt động bất đồng bộ, hỗ trợ Markdown và JSON có cấu trúc

Theo thông báo của Cloudflare, API cào mới này hoạt động theo chế độ bất đồng bộ (Asynchronous). Các nhà phát triển chỉ cần gửi một URL bắt đầu, hệ thống sẽ trả về một mã nhiệm vụ (Job ID), và sau đó tự động phát hiện cũng như render trang web trong nền bằng trình duyệt không đầu (Headless Browser). Các nhà phát triển có thể kiểm tra tiến trình và kết quả thu thập bất cứ lúc nào thông qua ID này.

Để phù hợp hoàn hảo với quy trình phát triển AI hiện tại, API cung cấp nhiều định dạng đầu ra khác nhau. Ngoài HTML truyền thống, còn có thể xuất trực tiếp sang định dạng Markdown được các mô hình ngôn ngữ lớn (LLM) yêu thích, cũng như JSON có cấu trúc do Workers AI điều khiển. Điều này sẽ giảm đáng kể thời gian dành cho làm sạch dữ liệu và chuyển đổi định dạng của các nhà phát triển.

Tập trung vào “cào bé ngoan”, tuân thủ quy định và cơ chế bảo vệ

Khác với nhiều công cụ cào dữ liệu độc hại cố gắng vượt qua các biện pháp bảo vệ của thị trường, điểm cuối /crawl của Cloudflare lần này nhấn mạnh “tuân thủ và minh bạch”. Chính thức nhấn mạnh rằng, điểm cuối này là một agent đã ký (Signed-agent), mặc định sẽ nghiêm ngặt tuân thủ các chỉ thị robots.txt của trang đích (bao gồm giới hạn thời gian trễ khi cào), và tôn trọng quy định “Kiểm soát cào AI” của Cloudflare.

Ngoài ra, Cloudflare còn rõ ràng khẳng định, công cụ này “sẽ tự thể hiện là robot” và không thể vượt qua hệ thống phát hiện robot hoặc CAPTCHA của Cloudflare. Thiết kế này đảm bảo rằng hành vi cào dữ liệu không xâm phạm ý muốn của chủ sở hữu trang web hoặc gây quá tải cho máy chủ.

Thu thập gia tăng tiết kiệm chi phí, trải nghiệm với gói miễn phí

Để nâng cao hiệu quả và giảm chi phí, API còn tích hợp nhiều chức năng kiểm soát nâng cao:

  • Thu thập gia tăng (Incremental crawling): hỗ trợ các tham số modifiedSince và maxAge, tự động bỏ qua các trang chưa thay đổi hoặc đã được thu thập gần đây, tiết kiệm tài nguyên xử lý lặp lại.
  • Kiểm soát phạm vi chi tiết: nhà phát triển có thể tùy chỉnh độ sâu thu thập, giới hạn số lượng trang, và dùng ký tự đại diện (Wildcard) để bao gồm hoặc loại trừ các URL cụ thể.
  • Chế độ tĩnh (Static mode): dành cho các trang web tĩnh thuần túy không cần render JavaScript, có thể thiết lập render: false để bỏ qua quá trình khởi động trình duyệt không đầu, giúp thu thập nhanh hơn.

Hiện tại, tính năng cào mạnh mẽ này đã được mở rộng toàn diện cho người dùng Cloudflare Workers ở cả phiên bản miễn phí và trả phí. Điều này đặc biệt hấp dẫn đối với các nhóm phát triển cần theo dõi nội dung trang web định kỳ, thu thập dữ liệu nghiên cứu hoặc xây dựng kho kiến thức AI doanh nghiệp, chính là một nâng cấp hạ tầng cực kỳ tiềm năng.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận