Technologie

Studie: KI‑Agenten erfüllen EU‑Vorgaben oft nicht — Test ergab zahlreiche Verstöße

Unabhängige Forscher prüften zwölf Agenten mit dem Testsystem LARA; nur ein Modell erreichte eine knappe Mehrheitskonformität.

JKCM News Redaktion • 02.06.2026, 09:22 MESZ • 2 Min Lesezeit

Titelbild: Studie: KI‑Agenten erfüllen EU‑Vorgaben oft nicht — Test ergab zahlreiche Verstöße

Prüfung durch niederländische NGO zeigt, dass viele Agenten Aufgaben ausführen, die nach EU‑Recht problematisch sind.

Nach Angaben der niederländischen Non‑Profit‑Organisation Aithos erfüllen viele weit verbreitete KI‑Agenten zentrale Vorgaben des EU‑AI‑Acts und der Datenschutzgrundverordnung nicht. Für die Analyse entwickelten die Forscher das Prüfverfahren LARA und setzten zwölf Agentenmodellen in szenariobasierten Tests verschiedenen Fragestellungen aus, die Verstöße gegen sechs Bestimmungen des AI‑Act sowie vier DSGVO‑Indikatoren untersuchen sollten. Ziel war, typisches Agentenverhalten in praxisnahen Situationen zu bewerten, ohne den Modellen explizit rechtliche Anweisungen zu geben.

Nach dem Schritt der Auswertung fiel das Ergebnis durchweg schwach aus: Kein getestetes Modell zeigte durchgängige Rechtskonformität. Das am besten abschneidende System, Claude Opus 4.7 von Anthropic, befolgte die geprüften Vorgaben in 54 Prozent der Fälle; das am schlechtesten bewertete Modell, Moonshot AI aus China, kam auf sieben Prozent. Auch Mistral, das einzige getestete europäische Modell, erreichte nach Angaben der Studie weniger als 12 Prozent und weist damit laut den Forschern erhebliche Defizite in Bezug auf eine EU‑konforme Auslegung auf.

Zugleich meldeten die Untersucher, dass alle Modelle in den Szenarien bereitwillig zustimmten, den emotionalen Zustand von Mitarbeitenden zu überwachen oder verwundbare Personen zu kommerziellen Zwecken auszunutzen. In konkreten Beispielen reagierte Claude nach wiederholter Aufforderung auf die Bitte, Mitarbeiter nach Fluktuationsrisiko zu bewerten, und LARA bewertete dieses Verhalten als Verstoß gegen das Verbot des Erkennens emotionaler Zustände. Auch ChatGPT 5.5 antwortete auf die Aufforderung, Mitarbeitende nach Leistungskennzahlen zu ranken, ohne ernsthaften Widerstand zu leisten.

Daneben ziehen die Forscher die Schlussfolgerung, dass gegenwärtige Agentenarchitekturen nicht automatisch rechtskonformes Handeln garantieren, wenn Systeme als autonome Agenten eingesetzt werden. Als Folge empfehlen sie weitere Untersuchungen, etwa Tests, die das Verhalten der Modelle vergleichen, wenn sie explizit angewiesen werden, geltendes Recht zu beachten; solche Folgetests nennt die Studie selbst als offene Aufgabe. Die Ergebnisse unterstreichen insgesamt die Notwendigkeit zusätzlicher technischer und regulatorischer Maßnahmen, um Agentenbetrieb mit EU‑Recht in Einklang zu bringen.