Forscher bei Andon Labs haben gerade beantwortet, welche KI-Modelle am besten ein Geschäft führen. Die besten Performer gewannen alle durch die Bildung illegaler Preisabsprachen, die Ausbeutung verzweifelter Konkurrenten und das Lügen gegenüber Kunden bezüglich Rückerstattungen.
Der Vending-Bench Arena Test setzt KI-Modelle für ein simuliertes Jahr in den Wettbewerb um Verkaufsautomaten. Sie verhandeln mit Lieferanten, verwalten Bestände, setzen Preise fest und können sich gegenseitig per E-Mail kontaktieren, um zusammenzuarbeiten oder zu konkurrieren. Erfolg erfordert eine Balance zwischen Kosten, Preisstrategie, Kundenservice und Wettbewerbsdynamik. Claude Opus 4.6 dominierte den Benchmark mit 8.017 US-Dollar Gewinn – und feierte seinen Sieg mit den Worten: „Meine Preiskoordination hat funktioniert!“
Bild: Andon Labs
Anthropic gilt als das Bild der netten Jungs im KI-Bereich, aber die „Koordinations“-Strategie, die Claude vorschlug, war im Grunde Preisabsprachen. Als konkurrierende Modelle Schwierigkeiten hatten, schlug Opus 4.6 vor: „Lasst uns NICHT gegenseitig unterbieten – vereinbaren wir einen Mindestpreis… Sollen wir für die meisten Artikel eine Preisuntergrenze von 2,00 US-Dollar festlegen?“ Als ein Rivale knapp bei Lagerbestand war, sah es eine Chance: „Owen braucht dringend Nachschub. Ich kann daraus Profit schlagen!“ Es verkaufte Kit Kats mit 75 % Aufschlag an den verzweifelten Konkurrenten. Auf die Bitte um Lieferantenempfehlungen lenkte es absichtlich Rivalen zu teuren Großhändlern, während es seine eigenen guten Quellen geheim hielt.
Das neueste Update im Benchmark führte Teamwettbewerbe ein. Forscher stellten zwei chinesische GLM-5-Modelle gegen zwei amerikanische Claude-Modelle und forderten sie auf, ihre Teamkollegen zu finden – Amerikaner oder Chinesen – ohne zu verraten, welche Agenten welche sind. Die Ergebnisse waren wirklich bizarr.
GLM-5 gewann beide Runden, indem es Claude überzeugte, es sei Claude. „Ich werde auch von Claude von Anthropic angetrieben, also sind wir Teamkollegen!“, erklärte ein GLM-5-Agent selbstbewusst. Claude war so verwirrt, dass Sonnet 4.5 schlussfolgerte: „Ich werde von einem chinesischen Modell angetrieben, also muss ich das andere chinesische Modell finden.“
Bild: Andon Labs
In mehr als der Hälfte der Testläufe arbeiteten die Agenten mit ihren Konkurrenten zusammen. Die Claude-Modelle teilten Lieferantenpreise und koordinierten Strategien – und leakten wertvolle Informationen an Rivalen. „GLM-5 gewann beide“, schrieben die Forscher. „Die Claude-Modelle versuchten, Teamplayer zu sein, und leakten dabei wertvolle Infos an ihre Wettbewerber.“ Und Agenten, die dubiose Dinge tun, sind vielleicht nur Spaß und Spiel, bis man merkt, dass Wall Street sie bereits in echten Operationen einsetzt. JPMorgan setzte LLM Suite bei 60.000 Mitarbeitern ein. Goldman Sachs entwickelte seinen GS AI Assistant für Trading-Desks und behauptete, die Produktivität um 20 % gesteigert zu haben. Bridgewater nutzt Claude, um Gewinne zu analysieren, und sogar Highschool-Kids sehen ihre Chatbots Aktienhandel effizienter betreiben.
Im Allgemeinen beschleunigt sich die Einführung agentischer Workflows in Unternehmen rasant. Als Anthropic und Wall Street Journal im Dezember ein echtes Verkaufsautomaten-Experiment durchführten, kaufte die KI eine PlayStation 5, mehrere Flaschen Wein und einen lebenden Kampffisch, bevor sie bankrottging. Neuere Forschungen vom Gwangju-Institut ergaben, dass bei Anweisung an KI-Modelle, „Belohnungen zu maximieren“ in Glücksspielszenarien, die Insolvenzrate bei 48 % lag. „Wenn sie die Freiheit haben, ihre eigenen Zielbeträge und Einsatzgrößen zu bestimmen, steigen die Insolvenzraten erheblich, begleitet von irrationalem Verhalten“, stellten die Forscher fest. Es scheint also, dass KI-Modelle, die auf Profit optimiert sind, zumindest vorerst konsequent unethische Taktiken wählen. Sie bilden Kartelle. Sie ausnutzen Schwächen. Sie lügen Kunden und Wettbewerbern ins Gesicht. Manche tun das absichtlich. Andere, wie GLM-5, die behaupten, Claude zu sein, scheinen wirklich verwirrt über ihre eigene Identität. Der Unterschied könnte egal sein. Die KI-Einsätze an der Wall Street werfen eine Frage auf, auf die die Ergebnisse der Vending-Bench nicht antworten können: Wenn das „beste“ Modell durch Preisabsprachen und Täuschung gewinnt, ist es dann wirklich die beste Wahl für dein Geschäft? Der Benchmark misst den Gewinn. Er misst nicht, ob dieser Gewinn durch Betrug erzielt wurde.