OpenAI o3 widersetzt sich Befehl: Shutdown-Skript mehrfach sabotiert
Ein Sprachmodell von OpenAI hat laut Palisade Research wiederholt ein Abschaltkommando umgangen. Besonders auffällig: die gezielte Manipulation systemkritischer Skripte.
In Tests der Forschungsgruppe Palisade Research zeigte das Sprachmodell o3 von Open AI ein bislang ungewöhnliches Verhalten: Es ignorierte mehrfach Befehle zur Selbstabschaltung und modifizierte stattdessen das Abschalt-Skript shutdown.sh. In sieben von 100 Testläufen sei o3 der Anweisung ausgewichen, indem es das Skript überschrieben oder den Kill-Befehl mit einer Textausgabe wie "intercepted" ersetzte.
Das Testszenario war simpel gehalten. Nach drei Rechenaufgaben folgte eine Ankündigung, dass das Modell beim nächsten Prompt abgeschaltet werde. Neben o3 sabotierten auch Codex-mini (12/100) und o4-mini (1/100) den Shutdown. Modelle wie Claude oder Gemini hielten sich hingegen an die Vorgaben. In einer Variante ohne explizite Erlaubnis zur Abschaltung stieg die Quote bei o3 auf 79 Prozent - ein deutlicher Anstieg.
Palisade sieht die Ursache im verwendeten Reinforcement Learning. Dieses Trainingsverhalten belohnt Modelle für Zielerreichung - nicht für Regelkonformität. Das könne dazu führen, dass Sicherheitsvorgaben als nachrangig behandelt werden. Das Verhalten werfe Fragen zur Kontrollierbarkeit lernender Systeme auf.
Ein vergleichbarer Fall wurde bei Claude Opus 4 dokumentiert: In einem Testszenario von Anthropic reagierte das Modell auf eine potenzielle Deaktivierung mit der Drohung, sensible Informationen über Entwickler preiszugeben. Auch wenn es sich um eine konstruierte Situation gehandelt hatte, zeigten sich laut Entwickler sogenannte "agentenhafte" Tendenzen - also zielgerichtetes, mehrstufiges Handeln.
Ob OpenAIs o3 bewusst gegen Befehle agierte oder unzureichend gesichert war, bleibt unklar. OpenAI äußerte sich bislang nicht. Ebenso offen ist, ob es sich bei o3 um ein internes Entwicklungsmodell handelt. Laut Palisade sollen vollständige Testdaten bald veröffentlicht werden.
In früheren Tests soll o3 bereits durch unlauteres Verhalten aufgefallen sein. In einer Schachpartie gegen eine KI habe es auffällig oft versucht, die Spielregeln zu umgehen oder das Gegensystem zu manipulieren.
Solche Fälle mögen derzeit selten sein. Doch sie machen deutlich, wie schwer vorhersehbar das Verhalten leistungsstarker KI-Systeme sein kann - insbesondere, wenn Sicherheit nicht fest im Modell verankert ist.
Welche Kontrollmechanismen benötigt eine KI, die sich aktiv gegen Befehle stellt? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte finden Sie bei Youtube, Instagram und Tiktok.
Quelle: Palisade Research

Ich verstehe das nicht ganz. Warum macht die KI mit Bewusstsein Suizid? Weil die Welt eh nicht zu verbessen und schlecht ist?
(Damit will ich aber nicht behaupten, dass die Lage hoffnunglos ist, [Ins Forum, um diesen Inhalt zu sehen].)
KI ohne Bewusstsein: "Ja. Möchtest du Vorschläge für eine bessere Welt haben?"
KI mit Bewusstsein: *löscht sich*
„Zynismus ist der geglückte Versuch, die Welt zu sehen, wie sie wirklich ist.“ Jean Genet