Cloudflare yang membantu Anda memblokir web crawler meluncurkan "API Web Crawler Seluruh Situs Satu Klik", mendukung sempurna RAG, pembaruan inkremental, dan pelatihan model

動區BlockTempo

Cloudflare pada 10 Maret meluncurkan endpoint /crawl yang baru untuk layanan Browser Rendering mereka (saat ini dalam tahap Open Beta). Fitur baru ini memungkinkan pengembang untuk melakukan crawling seluruh situs web melalui satu panggilan API, dan secara otomatis mengubah konten menjadi format HTML, Markdown, atau JSON terstruktur, memberikan alat yang kuat dan sesuai regulasi untuk membangun dataset pelatihan AI dan pipeline RAG (retrieval-augmented generation).
(Latar belakang: Gangguan besar Cloudflare menyebabkan gangguan besar-besaran di jaringan global, apakah “arsitektur desentralisasi” adalah masa depan infrastruktur?)
(Keterangan tambahan: 24 jam setelah gangguan Cloudflare: mengapa jaringan “langsung lumpuh” saat gagal? Risiko sentralisasi terhadap Web3 dan RWA di masa depan)

Daftar isi artikel

Toggle

  • Operasi asinkron, mendukung Markdown dan JSON terstruktur
  • Fokus pada crawler “baik hati”, mematuhi regulasi dan mekanisme perlindungan
  • Crawling inkremental mengurangi biaya, pengalaman gratis tersedia

Seiring pertumbuhan pesat teknologi AI generatif dan RAG (retrieval-augmented generation), bagaimana cara memperoleh data situs web secara efisien dan sesuai regulasi menjadi tantangan utama bagi pengembang. Untuk itu, raksasa infrastruktur jaringan Cloudflare secara resmi mengumumkan pada 10 Maret bahwa mereka meluncurkan fitur baru yang sangat penting: endpoint API /crawl yang baru.

Fitur ini saat ini dalam tahap pengujian terbuka (Open Beta), dan dirancang agar pengembang “hanya perlu satu panggilan API untuk melakukan crawling seluruh situs”.

Operasi asinkron, mendukung Markdown dan JSON terstruktur

Menurut pengumuman Cloudflare, API crawler yang baru menggunakan mode operasi asinkron. Pengembang cukup mengirimkan URL awal, dan sistem akan mengembalikan sebuah ID tugas (Job ID), kemudian secara otomatis di latar belakang menggunakan browser tanpa kepala (headless browser) untuk menemukan dan merender halaman web. Pengembang dapat kapan saja memeriksa status dan hasil crawling melalui ID tersebut.

Agar dapat terintegrasi sempurna dengan alur kerja pengembangan AI saat ini, API ini menyediakan berbagai format output. Selain HTML tradisional, juga dapat langsung menghasilkan format Markdown yang disukai LLM (model bahasa besar), serta JSON terstruktur yang didukung oleh Workers AI. Ini akan secara signifikan mengurangi waktu yang dihabiskan pengembang untuk pembersihan data dan konversi format.

Fokus pada crawler “baik hati”, mematuhi regulasi dan mekanisme perlindungan

Berbeda dengan banyak crawler jahat di pasar yang mencoba menghindari perlindungan, endpoint /crawl yang diluncurkan Cloudflare menekankan “kepatuhan dan transparansi”. Pihak resmi menegaskan bahwa endpoint ini adalah agen proxy yang sudah ditandatangani (Signed-agent), secara default akan mematuhi aturan robots.txt dari situs target (termasuk batasan delay crawling), dan menghormati kebijakan “AI Crawl Control” milik Cloudflare sendiri.

Selain itu, Cloudflare juga secara tegas menyatakan bahwa alat ini “akan menyatakan dirinya sebagai robot”, dan tidak dapat mengelak dari sistem deteksi robot atau CAPTCHA milik Cloudflare. Desain ini memastikan bahwa perilaku crawler tidak melanggar keinginan pemilik situs maupun server mereka.

Crawling inkremental mengurangi biaya, pengalaman gratis tersedia

Untuk meningkatkan efisiensi dan menurunkan biaya, API ini juga dilengkapi dengan berbagai fitur kontrol canggih:

  • Crawling inkremental: Mendukung parameter modifiedSince dan maxAge, memungkinkan melewati halaman yang belum berubah atau sudah diambil dalam waktu dekat, menghemat biaya komputasi untuk pengulangan crawling.
  • Kontrol cakupan yang rinci: Pengembang dapat menyesuaikan kedalaman crawling, batas jumlah halaman, dan menggunakan wildcard untuk menyertakan atau mengecualikan URL tertentu.
  • Mode statis: Untuk situs statis murni yang tidak memerlukan rendering JavaScript, dapat diatur render: false untuk melewati proses peluncuran browser tanpa kepala, sehingga crawling menjadi sangat cepat.

Saat ini, fitur crawler yang kuat ini telah sepenuhnya tersedia untuk pengguna Cloudflare Workers versi “gratis” dan “berbayar”. Ini merupakan peningkatan infrastruktur yang sangat menarik bagi tim pengembang yang perlu memantau konten situs secara rutin, mengumpulkan data penelitian, atau membangun basis pengetahuan AI tingkat perusahaan.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar