Io.net-Benchmarks zeigen das Kosten-Leistungs-„Sweet Spot“ für RTX 4090-Cluster

BlockChainReporter

Ein von Experten begutachtetes Paper, das auf der 6th International Artificial Intelligence and Blockchain Conference (AIBC 2025) angenommen wurde, argumentiert, dass ungenutzte Consumer-GPUs, wie beispielsweise Nvidias RTX 4090, die Kosten für das Ausführen von Large Language Model Inference deutlich senken können, wenn sie zusammen mit herkömmlicher Datacenter-Hardware eingesetzt werden.

Unter dem Titel „Idle Consumer GPUs as a Complement to Enterprise Hardware for LLM Inference“ veröffentlicht die Studie von io.net erstmals offene Benchmarks heterogener GPU-Cluster auf der dezentralen Cloud des Projekts. Die Analyse vergleicht Cluster aus Consumer-Grafikkarten mit Datacenter-optimierten H100-Beschleunigern und zeigt einen klaren Kompromiss zwischen Kosten und Leistung, der die Gestaltung von Inferenzflotten in Unternehmen grundlegend verändern könnte.

Laut dem Paper können Cluster, die aus RTX 4090 GPUs bestehen, zwischen 62 und 78 Prozent des Durchsatzes von H100s erreichen – bei etwa halb so hohen Betriebskosten. Für Batch-Workloads oder latenzunempfindliche Anwendungen sinken die Token-Kosten um bis zu 75 Prozent. Die Forscher betonen, dass diese Einsparungen besonders dann attraktiv sind, wenn Entwickler höhere Tail-Latenzen tolerieren oder Consumer-Hardware für Overflows und Hintergrundaufgaben wie Entwicklung, Batch-Processing, Embedding-Generierung und groß angelegte Evaluierungssweeps nutzen können.

Aline Almeida, Head of Research bei der IOG Foundation und Hauptautorin der Studie, sagte: „Unsere Ergebnisse zeigen, dass hybrides Routing über Enterprise- und Consumer-GPUs einen pragmatischen Ausgleich zwischen Performance, Kosten und Nachhaltigkeit bietet. Anstelle einer binären Entscheidung ermöglicht eine heterogene Infrastruktur Unternehmen, ihre spezifischen Anforderungen an Latenz und Budget zu optimieren und gleichzeitig den CO₂-Fußabdruck zu reduzieren.“

Hybride GPU-Flotten

Das Paper verschweigt die Stärken der H100s nicht: Nvidias Datacenter-Karten erreichen selbst unter hoher Last eine P99 Time-to-First-Token-Performance von unter 55 Millisekunden – ein Schwellwert, der sie für Echtzeit- und latenzkritische Anwendungen wie Chatbots in Produktion oder interaktive Agenten unverzichtbar macht. Consumer-GPU-Cluster hingegen eignen sich besser für Traffic, der längere Tail-Latenzen verkraften kann; die Autoren nennen ein P99-Fenster von 200–500 ms als realistisch für viele Forschungs- und Entwicklungs-/Test-Workloads.

Auch Energie und Nachhaltigkeit sind Teil der Überlegungen. Während H100s pro Token etwa 3,1-mal energieeffizienter sind, legt die Studie nahe, dass die Nutzung ungenutzter Consumer-GPUs den CO₂-Fußabdruck der Rechenleistung senken kann – durch längere Hardware-Nutzungsdauern und die Nutzung von Stromnetzen mit hohem Anteil erneuerbarer Energien. Kurz gesagt: Eine gemischte Flotte kann bei strategischem Einsatz sowohl günstiger als auch umweltfreundlicher sein.

Gaurav Sharma, CEO von io.net, sagte: „Diese von Experten geprüfte Analyse bestätigt die Kernthese hinter io.net: Die Zukunft des Computings wird verteilt, heterogen und zugänglich sein. Durch die Nutzung von Datacenter- und Consumer-Hardware können wir den Zugang zu fortschrittlicher KI-Infrastruktur demokratisieren und gleichzeitig nachhaltiger gestalten.“

Die praktischen Empfehlungen des Papers richten sich direkt an MLOps-Teams und KI-Entwickler. Die Autoren empfehlen, Enterprise-GPUs für Echtzeit- und Latenz-kritisches Routing einzusetzen, während Entwicklung, Experimente und Massen-Workloads an Consumer-Cluster geroutet werden sollten. Sie berichten von einem optimalen Betriebspunkt, in dem Konfigurationen mit vier RTX 4090-Karten die besten Kosten pro Million Tokens erzielen – zwischen $0,111 und $0,149 – und dabei einen Großteil der H100-Leistung liefern.

Über die Benchmarks hinaus untermauert die Forschung das Ziel von io.net, Rechenleistung durch die Verbindung verteilter GPUs zu einem programmierbaren, bedarfsorientierten Pool zu erweitern. Das Unternehmen positioniert seinen Stack – die programmierbare Infrastruktur von io.cloud kombiniert mit dem API-Toolkit von io.intelligence – als Komplettlösung für Startups, die Training, Agentenausführung und großskalige Inferenz benötigen, ohne die Kapitalbindung, die der ausschließliche Kauf von Datacenter-Hardware erfordert.

Die vollständigen Benchmarks und die Methodik sind im GitHub-Repository von io.net verfügbar, für alle, die sich tiefer mit den Zahlen beschäftigen und die Experimente reproduzieren möchten. Die Studie liefert einen wichtigen, empirisch fundierten Beitrag zur Debatte darüber, wie LLM-Deployments in den kommenden Jahren erschwinglich und nachhaltig skaliert werden können.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare
Handeln Sie jederzeit und überall mit Kryptowährungen
qrCode
Scannen, um die Gate App herunterzuladen
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)