OpenAI kündigte gestern (9.) die Übernahme der KI-Sicherheitsplattform Promptfoo an, einem im Jahr 2024 gegründeten Startup, das sich auf Schwachstellen-Tests und Red-Team-Übungen für Large Language Models (LLMs) spezialisiert hat – eine Art Sicherheitsüberprüfung, die echtes Hackerverhalten simuliert.
Mit der Entwicklung von KI vom Dialogroboter hin zu „KI-Kollegen“ mit Ausführungsvollmacht wird es zur zentralen Herausforderung für Unternehmen, zu verhindern, dass diese Agenten gehackt oder sensible Daten versehentlich weitergegeben werden.
Laut offizieller Ankündigung von OpenAI werden die Technologien von Promptfoo tief in die im Februar 2026 eingeführte Unternehmensplattform OpenAI Frontier integriert, um Unternehmen beim Aufbau von Agenten auf Frontier zu unterstützen:
Laut Ankündigung wurden die Open-Source-Tools von Promptfoo bereits von über 25 % der Fortune-500-Unternehmen genutzt, mit 350.000 Entwicklern als Nutzer. Das Team, das nur aus 23 Personen besteht, hat in einer letzten Finanzierungsrunde im Juli 2025 23 Millionen US-Dollar eingeworben und wurde auf 86 Millionen US-Dollar bewertet.
Die Gründer von Promptfoo, Ian Webster und Michael D’Angelo, werden das gesamte Team zu OpenAI wechseln lassen.
Kurz gesagt: KI-Agenten entwickeln sich derzeit zunehmend vom „Datenbank-Studenten“ zu „Assistenten, die mit deinem Stempel Geschäfte erledigen“.
Diese Veränderung erhöht das Risiko von Datenlecks auf eine neue Ebene, hin zu unkontrollierbaren Aktionen. Wenn wir KI autonome Aufgaben übertragen, ist die größte Gefahr nicht mehr, dass sie falsche Aussagen macht, sondern dass sie bei der Interpretation von Absichten abweicht oder durch versteckte Befehle von Hackern in die Irre geführt wird, was zu fehlerhaften Überweisungen, dem Löschen wichtiger Dateien oder anderen irreversiblen Handlungen führen kann.
In Umgebungen, in denen mehrere KI-Systeme zusammenarbeiten, kann ein logischer Fehler eines Agenten katastrophale Kettenreaktionen auslösen.
Deshalb liegt der Kern der Sicherheit im Zeitalter der Agenten nicht mehr im Blockieren von Informationen, sondern im „Verhaltensmonitoring“. Wir müssen wie Arbeitgeber handeln, klare Berechtigungsgrenzen und Überprüfungsmechanismen für KI festlegen. Nur wenn die Aktionen der KI jederzeit nachvollziehbar und die Zugriffsrechte präzise kontrolliert werden, kann diese mächtige Automatisierung nicht zum Hintereingang für Angreifer werden.