Cloudflare, який захищає вас від веб-скреперів, запустив «API для блокування веб-скреперів одним кліком на всьому сайті», з повною підтримкою RAG, інкрементного оновлення та навчання моделей

動區BlockTempo

Cloudflare 10 березня запустила нову точку доступу /crawl для своєї служби Browser Rendering (відображення у браузері), яка наразі перебуває у відкритому бета-тесті. Ця нова функція дозволяє розробникам за допомогою одного API-запиту сканувати весь сайт і автоматично перетворювати його в HTML, Markdown або структурований JSON-формат, що є потужним і відповідальним інструментом для створення наборів даних для тренування ШІ та каналів RAG (запитувально-генеративне посилення).
(Передісторія: масштабна аварія Cloudflare спричинила масштабний збій у глобальній мережі — чи є «децентралізована архітектура» майбутнім інфраструктури?)
(Додатковий контекст: 24 години після збою Cloudflare: чому мережа «зависає» одразу? Ризики централізації для Web3 і RWA майбутнього)

Зміст статті

Перемикач

  • Асинхронна обробка, підтримка Markdown і структурованого JSON
  • Орієнтація на «добросовісних» краулерів, суворе дотримання правил і захисту
  • Інкрементальне сканування для економії ресурсів, безкоштовний доступ для тестування

Зі стрімким зростанням генеративного ШІ та технологій RAG (запитувально-генеративне посилення) ефективне і відповідальне отримання даних з сайтів стає головним викликом для розробників. У відповідь гігант інтернет-інфраструктури Cloudflare 10 березня офіційно оголосила про запуск революційної нової функції для своєї служби Browser Rendering — нової точки API /crawl.

Ця функція, яка наразі перебуває у відкритому бета-тесті, орієнтована на те, щоб дозволити розробникам «одним API-запитом сканувати весь сайт».

Асинхронна обробка, підтримка Markdown і структурованого JSON

Згідно з повідомленням Cloudflare, новий API для краулінгу працює у асинхронному режимі. Розробники лише подають початкову URL-адресу, і система повертає ідентифікатор завдання (Job ID), після чого у фоновому режимі за допомогою безголового браузера автоматично знаходить і рендерить сторінки. Розробники можуть у будь-який час перевіряти статус і результати за цим ID.

Щоб ідеально інтегруватися з сучасними процесами розробки ШІ, цей API підтримує кілька форматів виводу. Окрім традиційного HTML, він може безпосередньо видавати Markdown, який особливо подобається великим мовним моделям (LLM), а також структурований JSON, який керується AI-сервісами Workers. Це значно зменшує час, витрачений на очищення даних і перетворення форматів.

Орієнтація на «добросовісних» краулерів, суворе дотримання правил і захист

На відміну від багатьох шкідливих краулерів, що намагаються обійти захист, новий /crawl API Cloudflare підкреслює «відповідальність і прозорість». Офіційно заявлено, що цей агент — підписаний проксі-агент (Signed-agent), який за замовчуванням суворо дотримується robots.txt цілей (включаючи обмеження швидкості сканування) і поважає власні правила Cloudflare «AI Crawl Control» (контроль краулінгу ШІ).

Крім того, Cloudflare чітко заявляє, що цей інструмент «самостійно заявляє про свою роботизовану природу» і не може обійти системи виявлення роботів або CAPTCHA. Такий дизайн гарантує, що поведінка краулінгу не порушує волю власників сайтів і не навантажує їхні сервери.

Інкрементальне сканування для економії ресурсів, безкоштовний доступ для тестування

Щоб підвищити ефективність і знизити витрати, цей API має кілька розширених функцій контролю:

  • Інкрементальне сканування (Incremental crawling): підтримує параметри modifiedSince і maxAge, що дозволяє автоматично пропускати сторінки, які не змінилися або вже були недавно скановані, економлячи ресурси.
  • Гнучкий контроль області: розробники можуть налаштовувати глибину сканування, ліміт кількості сторінок і використовувати універсальні шаблони (Wildcard) для включення або виключення певних URL-шляхів.
  • Статичний режим (Static mode): для сайтів без динамічного рендерингу JavaScript можна встановити render: false, щоб пропустити запуск безголового браузера і отримати швидкий скан.

Наразі ця потужна функція краулінгу повністю доступна користувачам Cloudflare Workers у безкоштовній і платній версіях. Це безперечно стане цінним інфраструктурним оновленням для команд, які регулярно моніторять сайти, збирають дослідницькі дані або створюють корпоративні AI-бази знань.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів