Cloudflare, das dir gegen Web-Scraper hilft, startet „One-Click Site-wide Crawler API" mit vollständiger Unterstützung für RAG, inkrementelle Updates und Modelltraining

動區BlockTempo

Cloudflare am 10. März die neue /crawl API-Endpunkt für seinen Browser Rendering Service (derzeit in Open Beta) eingeführt. Diese Funktion ermöglicht es Entwicklern, eine einzige API-Anfrage zu verwenden, um eine gesamte Website zu crawlen, wobei Inhalte automatisch in HTML, Markdown oder strukturiertes JSON umgewandelt werden. Damit bietet sie eine leistungsstarke und regelkonforme Lösung für den Aufbau von KI-Trainingsdatensätzen und RAG (Retrieval-Augmented Generation)-Pipelines.
(Vorgeschichte: Cloudflares großflächiger Ausfall führte zu globalen Netzwerkstörungen – ist „Dezentralisierung“ die Zukunft der Infrastruktur?)
(Hintergrund: Warum fällt das Netzwerk bei Cloudflare-Ausfällen innerhalb von 24 Stunden komplett aus? Das Risiko der Zentralisierung für Web3 und RWA in der Zukunft)

Inhaltsverzeichnis

Toggle

  • Asynchrone Verarbeitung, unterstützt Markdown und strukturiertes JSON
  • Fokus auf „braves“ Crawler, strikte Einhaltung von Compliance und Schutzmechanismen
  • Inkrementelles Crawling zur Kosteneinsparung, kostenloses Testangebot

Mit dem explosiven Wachstum generativer KI und RAG-Technologien wird die effiziente und regelkonforme Erfassung von Webseitendaten zur zentralen Herausforderung für Entwickler. Daher kündigte Cloudflare am 10. März offiziell eine bahnbrechende neue Funktion für seinen Browser Rendering Service an: den neuen /crawl API-Endpunkt.

Diese derzeit in Open Beta befindliche Funktion ermöglicht es Entwicklern, „mit nur einer API-Anfrage eine ganze Website zu crawlen“.

Asynchrone Verarbeitung, unterstützt Markdown und strukturiertes JSON

Laut Cloudflares Ankündigung nutzt die neue Crawler-API einen asynchronen Betriebsmodus. Entwickler müssen nur eine Start-URL übermitteln, woraufhin ein Job-ID zurückgegeben wird. Im Hintergrund nutzt das System einen Headless Browser, um Webseiten automatisch zu entdecken und zu rendern. Entwickler können den Fortschritt und die Ergebnisse jederzeit über diese ID abfragen.

Um nahtlos in bestehende KI-Entwicklungsprozesse zu integrieren, bietet die API verschiedene Ausgabeformate. Neben traditionellem HTML kann sie direkt in Markdown, das bei großen Sprachmodellen (LLMs) sehr beliebt ist, sowie in strukturiertes JSON, das von Workers AI gesteuert wird, ausgegeben werden. Das reduziert erheblich den Zeitaufwand für Datenbereinigung und Formatkonvertierung.

Fokus auf „braven“ Crawler, strikte Einhaltung von Compliance und Schutzmechanismen

Im Gegensatz zu vielen bösartigen Crawlern, die versuchen, Schutzmaßnahmen zu umgehen, setzt Cloudflare bei /crawl auf „Compliance und Transparenz“. Das offizielle System ist ein signiertes Agent-Programm, das standardmäßig strikt die robots.txt-Anweisungen der Zielseite (einschließlich Crawling-Delay) befolgt und die eigenen „AI Crawl Control“-Richtlinien respektiert.

Zudem betont Cloudflare, dass dieses Tool „sich als Roboter outet“ und nicht in der Lage ist, Cloudflares Bot-Erkennung oder Captchas zu umgehen. Dieses Design stellt sicher, dass das Crawling keine Verletzung der Website-Besitzer-Wünsche oder der Serverintegrität darstellt.

Inkrementelles Crawling zur Kosteneinsparung, kostenloses Testangebot

Zur Steigerung der Effizienz und Kostensenkung bietet die API mehrere fortgeschrittene Steuerungsoptionen:

  • Inkrementelles Crawling: Unterstützung für modifiedSince- und maxAge-Parameter, um Seiten, die sich nicht geändert haben oder kürzlich gecrawlt wurden, automatisch zu überspringen und so Rechenkosten zu sparen.
  • Fein abgestimmte Scope-Kontrolle: Entwickler können Crawl-Tiefe, Seitenlimit und Wildcards verwenden, um bestimmte URL-Pfade einzuschließen oder auszuschließen.
  • Statischer Modus: Für reine statische Websites, die kein JavaScript-Rendering benötigen, kann render: false gesetzt werden, um den Headless-Browser-Start zu überspringen und so extrem schnelle Crawls zu ermöglichen.

Derzeit ist diese leistungsstarke Crawling-Funktion für Cloudflare Workers in der „Free“- und „Paid“-Version vollständig verfügbar. Für Teams, die regelmäßig Website-Inhalte überwachen, Forschungsdaten sammeln oder Unternehmens-KI-Wissensdatenbanken aufbauen möchten, stellt dies eine äußerst attraktive Infrastruktur-Upgrade dar.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare