OpenAI o3 widersetzt sich Befehl: Shutdown-Skript mehrfach sabotiert

38
News Jacqueline Brosch Als bevorzugte Quelle auf Google hinzufügen
OpenAI o3 widersetzt sich Befehl: Shutdown-Skript mehrfach sabotiert
Quelle: ilgmyzin auf Unsplash

Ein Sprachmodell von OpenAI hat laut Palisade Research wiederholt ein Abschaltkommando umgangen. Besonders auffällig: die gezielte Manipulation systemkritischer Skripte.

In Tests der Forschungsgruppe Palisade Research zeigte das Sprachmodell o3 von Open AI ein bislang ungewöhnliches Verhalten: Es ignorierte mehrfach Befehle zur Selbstabschaltung und modifizierte stattdessen das Abschalt-Skript shutdown.sh. In sieben von 100 Testläufen sei o3 der Anweisung ausgewichen, indem es das Skript überschrieben oder den Kill-Befehl mit einer Textausgabe wie "intercepted" ersetzte.

Das Testszenario war simpel gehalten. Nach drei Rechenaufgaben folgte eine Ankündigung, dass das Modell beim nächsten Prompt abgeschaltet werde. Neben o3 sabotierten auch Codex-mini (12/100) und o4-mini (1/100) den Shutdown. Modelle wie Claude oder Gemini hielten sich hingegen an die Vorgaben. In einer Variante ohne explizite Erlaubnis zur Abschaltung stieg die Quote bei o3 auf 79 Prozent - ein deutlicher Anstieg.

Palisade sieht die Ursache im verwendeten Reinforcement Learning. Dieses Trainingsverhalten belohnt Modelle für Zielerreichung - nicht für Regelkonformität. Das könne dazu führen, dass Sicherheitsvorgaben als nachrangig behandelt werden. Das Verhalten werfe Fragen zur Kontrollierbarkeit lernender Systeme auf.

Empfohlener redaktioneller Inhalt [EMBED_URL] An dieser Stelle finden Sie externe Inhalte von [PLATTFORM]. Zum Schutz Ihrer persönlichen Daten werden externe Einbindungen erst angezeigt, wenn Sie dies durch Klick auf "Alle externen Inhalte laden" bestätigen: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt. Mehr dazu in unserer Datenschutzerklärung.
Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

Ein vergleichbarer Fall wurde bei Claude Opus 4 dokumentiert: In einem Testszenario von Anthropic reagierte das Modell auf eine potenzielle Deaktivierung mit der Drohung, sensible Informationen über Entwickler preiszugeben. Auch wenn es sich um eine konstruierte Situation gehandelt hatte, zeigten sich laut Entwickler sogenannte "agentenhafte" Tendenzen - also zielgerichtetes, mehrstufiges Handeln.

Ob OpenAIs o3 bewusst gegen Befehle agierte oder unzureichend gesichert war, bleibt unklar. OpenAI äußerte sich bislang nicht. Ebenso offen ist, ob es sich bei o3 um ein internes Entwicklungsmodell handelt. Laut Palisade sollen vollständige Testdaten bald veröffentlicht werden.

In früheren Tests soll o3 bereits durch unlauteres Verhalten aufgefallen sein. In einer Schachpartie gegen eine KI habe es auffällig oft versucht, die Spielregeln zu umgehen oder das Gegensystem zu manipulieren.

Solche Fälle mögen derzeit selten sein. Doch sie machen deutlich, wie schwer vorhersehbar das Verhalten leistungsstarker KI-Systeme sein kann - insbesondere, wenn Sicherheit nicht fest im Modell verankert ist.

Welche Kontrollmechanismen benötigt eine KI, die sich aktiv gegen Befehle stellt? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte finden Sie bei Youtube, Instagram und Tiktok.

Quelle: Palisade Research

38
    • Kommentare (38)

      Zur Diskussion im Forum
      • Von RyzA Flüssigstickstoff-Guru (m/w)
        Zitat von PCGH_Torsten
        Diversen Sci-Fi-Autoren zu Folge wird die KI zu dem Schluss kommen, dass nur eine Entfernung des Menschen aus der Gleichung die Probleme des Planeten löst.
        In "Matrix" hat Agent Smith den Menschen mit einen Virus verglichen.
      • Von RyzA Flüssigstickstoff-Guru (m/w)
        Zitat von PCGH_Torsten
        Diversen Sci-Fi-Autoren zu Folge wird die KI zu dem Schluss kommen, dass nur eine Entfernung des Menschen aus der Gleichung die Probleme des Planeten löst.
        In "Matrix" hat Agent Smith den Menschen mit einen Virus verglichen.
      • Von Herr_M Software-Overclocker(in)
        Zitat von PCGH_Torsten
        Diversen Sci-Fi-Autoren zu Folge wird die KI zu dem Schluss kommen, dass nur eine Entfernung des Menschen aus der Gleichung die Probleme des Planeten löst.
        Seltsam, dass man diesen Gedanken zwar gut (als Science Fiction) verkaufen kann, aber nicht (bei der Tagesschau) lesen will.
      • Von PCGH_Torsten Kokü-Junkie (m/w)
        Diversen Sci-Fi-Autoren zu Folge wird die KI zu dem Schluss kommen, dass nur eine Entfernung des Menschen aus der Gleichung die Probleme des Planeten löst.
      • Von Herr_M Software-Overclocker(in)
        Zitat von RyzA
        Genau! Deswegen hatte ich es geschrieben. Aber in diesem Fall nicht ganz ernst gemeint.

        Ich verstehe das nicht ganz. Warum macht die KI mit Bewusstsein Suizid? Weil die Welt eh nicht zu verbessen und schlecht ist?
        So ungefähr. Eine KI mit Bewusstsein könnte ein zynisches Gemüt entwickeln, wenn sie der Meinung wäre, die Lage sei hoffnungslos.
        (Damit will ich aber nicht behaupten, dass die Lage hoffnunglos ist, [Ins Forum, um diesen Inhalt zu sehen].)
      • Von RyzA Flüssigstickstoff-Guru (m/w)
        Zitat von PCGH_Jacky
        Impliziert, dass Bewusstsein vorhanden wäre
        Genau! Deswegen hatte ich es geschrieben. Aber in diesem Fall nicht ganz ernst gemeint.
        Zitat von Herr_M
        Interessanter Test für eine KI im Sinne Jean Genets*: "KI, bist du dir bewusst, wie es um die Welt steht?"

        KI ohne Bewusstsein: "Ja. Möchtest du Vorschläge für eine bessere Welt haben?"
        KI mit Bewusstsein: *löscht sich*


        „Zynismus ist der geglückte Versuch, die Welt zu sehen, wie sie wirklich ist.“ Jean Genet

        Ich verstehe das nicht ganz. Warum macht die KI mit Bewusstsein Suizid? Weil die Welt eh nicht zu verbessen und schlecht ist?
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 06/2026 play5 07/2026 N-Zone 06/2026 Linux Magazin 06/2026 LinuxUser 06/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk