Benchmark: KI übertrifft On‑Call‑Ingenieure bei Ausfällen nicht
Eine gemeinsame Benchmark‑Analyse von ARFbench und Datadog zeigt: Aktuelle KI‑Agenten ersetzen On‑Call‑Ingenieure bei Produktionsausfällen nicht.
Nach Angaben einer am 18. Mai veröffentlichten Benchmark‑Analyse konnten KI‑gestützte Systeme in simulierten Ausfallszenarien nicht die Leistungsfähigkeit erfahrener On‑Call‑Ingenieure übertreffen. Die Untersuchung, die unter dem Namen ARFbench in Kooperation mit Datadog entstand, stellte automatisierte Agenten direkten Vergleichen mit menschlichen Einsatzteams gegenüber und prüfte typische Betriebsstörungen unter kontrollierten, realitätsnahen Bedingungen.
Im Mittelpunkt der Analyse standen Reaktionszeit, Fehlerdiagnose und Wiederherstellungsmaßnahmen. Die getesteten KI‑Agenten zeigten Potenzial in Teilaufgaben: Sie durchsuchten Logdateien schnell und lieferten Vorschläge für mögliche Ursachen. Bei Aufgaben, die tieferes Kontextverständnis erforderten, wie das Erkennen komplexer Ursachenketten oder das Abwägen von Nebeneffekten automatischer Eingriffe, blieben die Systeme jedoch hinter den menschlichen Ingenieuren zurück.
Zugleich hebt die Benchmark hervor, dass KI‑Tools als Assistenzsysteme nützlich sein können. In Verbindung mit menschlicher Aufsicht beschleunigten sie Routineanalysen, strukturierten Informationsflüsse und entlasteten Teams bei wiederkehrenden Tätigkeiten. Wenn jedoch schnelle Entscheidungen unter hoher Unsicherheit nötig waren, erwiesen sich erfahrene On‑Call‑Teams als robuster und anpassungsfähiger als die autonomen Agenten.
Daneben nennt die Studie organisatorische Hürden, die eine vollständige Automatisierung erschweren. Fragen der Verantwortung, bestehende Eskalationsprozesse und die Notwendigkeit, potenzielle Nebenwirkungen automatischer Maßnahmen abzuschätzen, sprachen gegen eine weitreichende Auto‑Intervention. Deshalb bleiben menschliche Entscheidungsprozesse und formale Risikobewertungen zentrale Elemente des Betriebs kritischer Systeme.
Inzwischen verlagern sich Anbieter und Forschung verstärkt auf hybride Modelle, die menschliche Expertise mit KI‑Unterstützung koppeln. Die Benchmark‑Ergebnisse deuten darauf hin, dass eine Ablösung der On‑Call‑Rolle durch autonome Agenten gegenwärtig nicht belegt ist; stattdessen steigt der Wert von Werkzeugen, die als Verstärker menschlicher Fähigkeiten fungieren und operative Abläufe ergänzen, ohne die menschliche Verantwortung zu ersetzen.