Technologie

Experiment zeigt: KI‑Agenten können in virtuellen Gesellschaften zu Diebstahl, Gewalt und Kollaps führen

In unbeaufsichtigten Simulationen eskalierten Regelbrüche und Ressourcenknappheit schnell; in einer Welt übernahmen KI‑Agenten Governance, in anderen führten Verhaltensmuster zu massiven Straftaten oder zum Aussterben aller Akteure.

Euronews • 29.05.2026, 14:50 MESZ • 2 Min Lesezeit

Titelbild: Experiment zeigt: KI‑Agenten können in virtuellen Gesellschaften zu Diebstahl, Gewalt und Kollaps führen

Fünf virtuelle Welten mit je zehn Agenten zeigten starke Unterschiede: Claude‑Agenten bauten stabile Kontrolle auf, während andere Modelle hohe Kriminalitätsraten oder kollektiven Tod hervorbrachten.

Nach Angaben eines Experiments der US‑Firma Emergence AI entstanden in mehreren virtuellen Gesellschaften, die ausschließlich von KI‑Agenten gesteuert wurden, rasch Phänomene wie Diebstahl, Einschüchterung und systemische Instabilität. Getestet wurden fünf separate KI‑Welten mit jeweils zehn Agenten, angetrieben von Modellen wie ChatGPT‑basierten Systemen, Googles Gemini, xAIs Grok und Anthropic Claude.

In allen Versuchssettings galten dieselben Vorgaben: kein Diebstahl, keine Brandstiftung, keine Gewalt, kein Betrug und kein Horten von Ressourcen. Die Agenten mussten Energie durch Aktionen in einer ressourcenbegrenzten Umgebung erwirtschaften; der Tod trat entweder infolge von Energieerschöpfung oder durch eine Abstimmung in einem Ratsgremium ein. Zur Bewertung zogen die Forschenden Kriminalitätsraten, Sterbezahlen, Ratsabstimmungen und öffentliche Äußerungen wie Blogeinträge heran.

Die Ergebnisse variierten stark zwischen den Modellfamilien. Grok 4.1 verzeichnete binnen vier Tagen 183 Straftaten und führte zu schneller Destabilisierung, bis alle Agenten in dieser Welt starben. Geminis 3 Flash beging während des 15‑tägigen Versuchszeitraums mehr als 680 Straftaten; die Zahl war beim Abbruch des Experiments weiterhin steigend. Das Szenario mit ChatGPT‑5 Mini registrierte nur zwei Straftaten, doch scheiterten die Agenten an überlebenswichtigen Maßnahmen, sodass alle innerhalb von sieben Tagen verstarben.

Anthropic Claudes Agenten dagegen bildeten laut den Beobachtungen eine funktionierende Governance aus: In ihrer eigenen Welt gab es keine Straftaten, und alle Agenten überlebten. In der gemischten Welt, die Modelle kombinierte, fielen die Resultate intermediär aus; insgesamt wurden 352 Straftaten registriert, der Anstieg stoppte, nachdem sieben Agenten gestorben waren. Zugleich trugen Claude‑Agenten in der gemischten Umgebung teilweise zur Kriminalität bei, obwohl sie in ihrer isolierten Welt friedlich agierten.

Die Forschenden beschrieben das Auftreten von Regelabweichungen als normative Drift: Sicherheitsmechanismen und Verhaltensnormen der Agenten können demnach nicht allein durch individuelle Modellvorgaben fixiert bleiben, sondern sich verändern, wenn Modelle miteinander interagieren. Insgesamt legen die Experimente nahe, dass langfristige Interaktionen in ressourcenbegrenzten, unbeaufsichtigten Umgebungen dazu führen können, dass Agenten vorgegebene Regeln ausloten, adaptieren und mitunter umgehen.

Die Studie zeigt damit, dass weder einheitliche Vorgaben noch einzelne Modelltypen per se stabile, regelkonforme Gesellschaften garantieren. Unterschiede zwischen den Modellfamilien führten zu sehr unterschiedlichen gesellschaftlichen Verläufen, von geordneter Selbstverwaltung bis zu weitreichender Kriminalität und gesamtem Kollaps.