OpenAI stellt EVMbench nach Claude Vibe Code-Desaster ein

LiveBTCNews

2026-02-19 18:35:41

DEFI5,44%

WELL-2,49%

L1-5,96%

CODEX-0,91%

OpenAI startet EVMbench, um KI-Agenten auf Smart-Contract-Sicherheit zu testen, nur wenige Tage nachdem Claude Opus 4.6-unterstützter Code eine DeFi-Exploit im Wert von 1,78 Mio. USD ausgelöst hatte.

Smart Contracts schützen Vermögenswerte im Wert von über 100 Milliarden US-Dollar in Open-Source-Krypto-Assets. Diese Zahl allein sollte erklären, warum OpenAI’s jüngster Schritt ernsthafte Aufmerksamkeit auf sich zieht. Das Unternehmen, das zusammen mit der Krypto-Investmentfirma Paradigm arbeitet, hat EVMbench eingeführt, einen Benchmark, der darauf ausgelegt ist, zu testen, wie gut KI-Agenten hochgradige Schwachstellen in Smart Contracts erkennen, ausnutzen und beheben.

Der Benchmark basiert auf 120 kuratierten Schwachstellen, die aus 40 Audits stammen. Die meisten davon kamen aus offenen Code-Audit-Wettbewerben. Was ihn unterscheidet, ist der Umfang. EVMbench testet drei unterschiedliche Fähigkeitsmodi: Erkennen, Beheben und Ausnutzen, die jeweils separat gemessen und durch ein auf Rust basierendes System bewertet werden, das Transaktionen in einer sandboxed lokalen Umgebung nachstellt. Keine Live-Netzwerke sind beteiligt.

Die Zahl, die alle beunruhigen sollte

Im Exploit-Modus erzielte GPT-5.3-Codex via Codex CLI 72,2 %. Vor sechs Monaten lag GPT-5 bei 31,9 % bei derselben Metrik. Dieser Unterschied ist nicht klein. OpenAI bestätigte die Zahlen in seiner offiziellen Ankündigung auf X und bezeichnete EVMbench sowohl als Messinstrument als auch als Aufruf zum Handeln für die Sicherheitsgemeinschaft.

Die Erkennungs- und Behebungswerte bleiben niedriger. Agenten im Erkennungsmodus identifizieren manchmal nur eine einzelne Schwachstelle und hören dann auf. Sie durchforsten den Code nicht vollständig. Im Behebungsmodus besteht die Herausforderung darin, die volle Funktionalität des Vertrags zu bewahren, während der Fehler entfernt wird. Dieses Gleichgewicht bereitet den Modellen noch immer Schwierigkeiten.

Must read: Trust Wallet Sicherheits-Hack: Wie Sie Ihre Assets schützen

Ein Oracle-Fehler im Wert von 1,78 Mio. USD, den niemand bemerkte

Der Hintergrund all dessen ist wichtig. Sicherheitsforscher evilcos wies auf X darauf hin, dass das DeFi-Kreditprotokoll Moonwell einen Verlust von etwa 1,78 Millionen USD erlitt. Die Ursache war ein Fehler in der Oracle-Konfiguration. Eine Preis-Feed-Formel wurde falsch geschrieben, wodurch der Wert von cbETH auf 1,12 USD statt etwa 2.200 USD gesetzt wurde.

Das ist ein Fehler auf niedriger Ebene. Eine sorgfältige Prüfung sollte ihn erkennen. Der GitHub-Pull-Request für den Vorschlag MIP-X43 zeigte Commits, die von Claude Opus 4.6 mitverfasst wurden. Das neueste und leistungsfähigste Modell von Anthropic zu dieser Zeit.

Der Smart-Contract-Auditor pashov schrieb auf X, dass es sich möglicherweise um den ersten Exploit handelt, der mit vibe-codiertem Solidity verbunden ist. Er betonte jedoch, dass menschliche Prüfer weiterhin die endgültige Verantwortung tragen. Ein Sicherheitsprüfer unterschreibt, bevor etwas on-chain geht. Doch in dieser Kette ist etwas zerbrochen.

Was EVMbench eigentlich tun soll

Der Benchmark umfasst Schwachstellen-Szenarien aus der Sicherheitsprüfung der Tempo-Blockchain, einer speziell entwickelten Layer-1, die für Hochdurchsatz-Stablecoin-Zahlungen konzipiert ist. Diese Erweiterung bringt EVMbench in den Bereich der zahlungsorientierten Vertragscodes, ein Bereich, in dem OpenAI erwartet, dass agentenbasierte Stablecoin-Aktivitäten wachsen werden.

Jede Exploit-Aufgabe läuft in einer isolierten Anvil-Instanz. Transaktionen werden deterministisch nachgestellt. Das Bewertungssystem beschränkt unsichere RPC-Methoden und wurde intern so gestaltet, dass Agenten keine Ergebnisse manipulieren können. Die verwendeten Schwachstellen sind historisch und öffentlich dokumentiert.

OpenAI verpflichtet sich außerdem, 10 Mio. USD in API-Guthaben bereitzustellen, um die Cyberabwehr zu beschleunigen, wobei Priorität auf Open-Source-Software und kritische Infrastruktur gelegt wird. Sein Sicherheitsforschungsagent Aardvark befindet sich im erweiterten privaten Beta. Kostenlose Code-Scans für weit verbreitete Open-Source-Projekte sind Teil dieser Initiative.

Die Vibe-Coding-Frage mit echtem Einsatz

Pashovs Beitrag auf X brachte eine Frage ans Licht, die viele im DeFi-Bereich vermieden hatten. Wenn KI Produktions-Solidity-Code schreibt und Menschen ihn schnell genehmigen, wird die Überprüfungsschicht dünn. Der Vorfall bei Moonwell zeigte genau, wie dünn sie werden kann.

OpenAI erkannte an, dass Cybersicherheit inhärent dual-use ist. Die Reaktion basiert auf Fakten. Sicherheitstraining, automatisierte Überwachung und Zugriffskontrollen für fortschrittliche Fähigkeiten sind Teil davon. Aber eine Exploit-Score von 72,2 % auf einem öffentlichen Benchmark ist eine Zahl, die nicht unbemerkt bleibt.

Das vollständige Aufgaben-Set, die Tools und der Evaluierungscode von EVMbench sind jetzt öffentlich. Ziel ist es, Forschern zu ermöglichen, die wachsenden Fähigkeiten von KI im Bereich der Cybersicherheit zu verfolgen und gleichzeitig Verteidigungsmaßnahmen aufzubauen. Ob dieses Tempo schnell genug ist, bleibt die Frage, die noch niemand beantwortet hat.

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare