OpenAI o3 widersetzt sich Befehl: Shutdown-Skript mehrfach sabotiert

News 02.06.2025 um 08:00 Uhr Jacqueline Brosch Als bevorzugte Quelle auf Google hinzufügen

Ein Sprachmodell von OpenAI hat laut Palisade Research wiederholt ein Abschaltkommando umgangen. Besonders auffällig: die gezielte Manipulation systemkritischer Skripte.

In Tests der Forschungsgruppe Palisade Research zeigte das Sprachmodell o3 von Open AI ein bislang ungewöhnliches Verhalten: Es ignorierte mehrfach Befehle zur Selbstabschaltung und modifizierte stattdessen das Abschalt-Skript shutdown.sh. In sieben von 100 Testläufen sei o3 der Anweisung ausgewichen, indem es das Skript überschrieben oder den Kill-Befehl mit einer Textausgabe wie "intercepted" ersetzte.

Das Testszenario war simpel gehalten. Nach drei Rechenaufgaben folgte eine Ankündigung, dass das Modell beim nächsten Prompt abgeschaltet werde. Neben o3 sabotierten auch Codex-mini (12/100) und o4-mini (1/100) den Shutdown. Modelle wie Claude oder Gemini hielten sich hingegen an die Vorgaben. In einer Variante ohne explizite Erlaubnis zur Abschaltung stieg die Quote bei o3 auf 79 Prozent - ein deutlicher Anstieg.

Palisade sieht die Ursache im verwendeten Reinforcement Learning. Dieses Trainingsverhalten belohnt Modelle für Zielerreichung - nicht für Regelkonformität. Das könne dazu führen, dass Sicherheitsvorgaben als nachrangig behandelt werden. Das Verhalten werfe Fragen zur Kontrollierbarkeit lernender Systeme auf.

Empfohlener redaktioneller Inhalt [EMBED_URL] An dieser Stelle finden Sie externe Inhalte von [PLATTFORM]. Zum Schutz Ihrer persönlichen Daten werden externe Einbindungen erst angezeigt, wenn Sie dies durch Klick auf "Alle externen Inhalte laden" bestätigen: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt. Mehr dazu in unserer Datenschutzerklärung.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

Ein vergleichbarer Fall wurde bei Claude Opus 4 dokumentiert: In einem Testszenario von Anthropic reagierte das Modell auf eine potenzielle Deaktivierung mit der Drohung, sensible Informationen über Entwickler preiszugeben. Auch wenn es sich um eine konstruierte Situation gehandelt hatte, zeigten sich laut Entwickler sogenannte "agentenhafte" Tendenzen - also zielgerichtetes, mehrstufiges Handeln.

Ob OpenAIs o3 bewusst gegen Befehle agierte oder unzureichend gesichert war, bleibt unklar. OpenAI äußerte sich bislang nicht. Ebenso offen ist, ob es sich bei o3 um ein internes Entwicklungsmodell handelt. Laut Palisade sollen vollständige Testdaten bald veröffentlicht werden.

In früheren Tests soll o3 bereits durch unlauteres Verhalten aufgefallen sein. In einer Schachpartie gegen eine KI habe es auffällig oft versucht, die Spielregeln zu umgehen oder das Gegensystem zu manipulieren.

Solche Fälle mögen derzeit selten sein. Doch sie machen deutlich, wie schwer vorhersehbar das Verhalten leistungsstarker KI-Systeme sein kann - insbesondere, wenn Sicherheit nicht fest im Modell verankert ist.

Welche Kontrollmechanismen benötigt eine KI, die sich aktiv gegen Befehle stellt? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte finden Sie bei Youtube, Instagram und Tiktok.

Quelle: Palisade Research

Artikel teilen

OpenAI o3 sabotiert Shutdown: KI umgeht eigene Abschaltung Ein Sprachmodell von OpenAI hat laut Palisade Research wiederholt ein Abschaltkommando umgangen. Besonders auffällig: die gezielte Manipulation systemkritischer Skripte.

Per E-Mail versenden

Artikel teilen

Kommentare (38)