Cloudflare pada 10 Maret meluncurkan endpoint /crawl yang baru untuk layanan Browser Rendering mereka (saat ini dalam tahap Open Beta). Fitur baru ini memungkinkan pengembang untuk melakukan crawling seluruh situs web melalui satu panggilan API, dan secara otomatis mengubah konten menjadi format HTML, Markdown, atau JSON terstruktur, memberikan alat yang kuat dan sesuai regulasi untuk membangun dataset pelatihan AI dan pipeline RAG (retrieval-augmented generation).
(Latar belakang: Gangguan besar Cloudflare menyebabkan gangguan besar-besaran di jaringan global, apakah “arsitektur desentralisasi” adalah masa depan infrastruktur?)
(Keterangan tambahan: 24 jam setelah gangguan Cloudflare: mengapa jaringan “langsung lumpuh” saat gagal? Risiko sentralisasi terhadap Web3 dan RWA di masa depan)
Daftar isi artikel
Toggle
Seiring pertumbuhan pesat teknologi AI generatif dan RAG (retrieval-augmented generation), bagaimana cara memperoleh data situs web secara efisien dan sesuai regulasi menjadi tantangan utama bagi pengembang. Untuk itu, raksasa infrastruktur jaringan Cloudflare secara resmi mengumumkan pada 10 Maret bahwa mereka meluncurkan fitur baru yang sangat penting: endpoint API /crawl yang baru.
Fitur ini saat ini dalam tahap pengujian terbuka (Open Beta), dan dirancang agar pengembang “hanya perlu satu panggilan API untuk melakukan crawling seluruh situs”.
Menurut pengumuman Cloudflare, API crawler yang baru menggunakan mode operasi asinkron. Pengembang cukup mengirimkan URL awal, dan sistem akan mengembalikan sebuah ID tugas (Job ID), kemudian secara otomatis di latar belakang menggunakan browser tanpa kepala (headless browser) untuk menemukan dan merender halaman web. Pengembang dapat kapan saja memeriksa status dan hasil crawling melalui ID tersebut.
Agar dapat terintegrasi sempurna dengan alur kerja pengembangan AI saat ini, API ini menyediakan berbagai format output. Selain HTML tradisional, juga dapat langsung menghasilkan format Markdown yang disukai LLM (model bahasa besar), serta JSON terstruktur yang didukung oleh Workers AI. Ini akan secara signifikan mengurangi waktu yang dihabiskan pengembang untuk pembersihan data dan konversi format.
Berbeda dengan banyak crawler jahat di pasar yang mencoba menghindari perlindungan, endpoint /crawl yang diluncurkan Cloudflare menekankan “kepatuhan dan transparansi”. Pihak resmi menegaskan bahwa endpoint ini adalah agen proxy yang sudah ditandatangani (Signed-agent), secara default akan mematuhi aturan robots.txt dari situs target (termasuk batasan delay crawling), dan menghormati kebijakan “AI Crawl Control” milik Cloudflare sendiri.
Selain itu, Cloudflare juga secara tegas menyatakan bahwa alat ini “akan menyatakan dirinya sebagai robot”, dan tidak dapat mengelak dari sistem deteksi robot atau CAPTCHA milik Cloudflare. Desain ini memastikan bahwa perilaku crawler tidak melanggar keinginan pemilik situs maupun server mereka.
Untuk meningkatkan efisiensi dan menurunkan biaya, API ini juga dilengkapi dengan berbagai fitur kontrol canggih:
Saat ini, fitur crawler yang kuat ini telah sepenuhnya tersedia untuk pengguna Cloudflare Workers versi “gratis” dan “berbayar”. Ini merupakan peningkatan infrastruktur yang sangat menarik bagi tim pengembang yang perlu memantau konten situs secara rutin, mengumpulkan data penelitian, atau membangun basis pengetahuan AI tingkat perusahaan.