Apple-Tests zeigen: Komplexe Rätsel überfordern künstliche Intelligenz

5
News Jacqueline Brosch Als bevorzugte Quelle auf Google hinzufügen
Apple-Tests zeigen: Komplexe Rätsel überfordern künstliche Intelligenz
Quelle: Symbolbild erzeugt mit DALL·E 3

Künstliche Intelligenz versagt laut einer aktuellen Apple-Studie bei anspruchsvollen Rätseln. Ab einem bestimmten Schwierigkeitsgrad brechen sowohl Treffergenauigkeit als auch "Denkaufwand" der Modelle abrupt ein.

Künstliche Intelligenz sorgt in vielen Bereichen für Fortschritte, doch eine neue Untersuchung von Apple offenbart klare Grenzen. Getestet wurden sowohl spezialisierte Denkmodelle (Large Reasoning Models, kurz LRM) als auch Standard-Sprachmodelle (LLM). Zu den untersuchten LRMs zählen o1 und o3-Mini von Open AI, Deepseek-R1, Claude 3.7 Sonnet Thinking und Gemini Flash Thinking. Deren nicht-denkenden Pendants entsprechen Modelle wie Deepseek-V3 und Claude 3.7 Sonnet ohne Thinking-Mechanismus.

In vier kontrollierten Puzzle-Umgebungen - darunter Turm von Hanoi, Checker-Springen, Flussüberquerungen und Blocks World - wurde die Modellleistung bei stetig ansteigender Schwierigkeit geprüft. Zunächst lösen die KI-Systeme einfache Aufgaben mit hoher Trefferquote. Mit zunehmender Komplexität jedoch verändert sich ihr internes Vorgehen drastisch: Sie messen ihren Denkaufwand in sogenannten Tokens - das sind kleine Informationseinheiten, vergleichbar mit Notizen oder Zwischenschritten beim Lösen eines Rätsels. In einfachen Szenarien wächst der Tokenverbrauch proportional zur Schwierigkeit. Überschreitet das Problem aber eine kritische Schwelle, schrumpft dieser Verbrauch plötzlich, obwohl das Modell noch genügend Kapazität hätte, weiterzurechnen.

Dieser abrupte Rückgang im Tokenverbrauch bedeutet nicht, dass die KI intelligenter wird, sondern dass ihr Planungsprozess versagt. Man kann sich das vorstellen wie einen Routenplaner, der bei unklaren Kartendaten einfach stehen bleibt, anstatt eine alternative Strecke zu suchen. Die Modelle geben auf, bevor sie neue Denkpfade erschließen können.

In mittleren Schwierigkeitsstufen übertreffen die LRMs ihre LLM-Gegenstücke, weil sie längere Ketten von Zwischenschritten auswerten. Doch jenseits dieser Stufe kollabiert die Leistung beider Modelltypen nahezu vollständig. Auch wenn der genaue Lösungsalgorithmus im Prompt vorgegeben wird, bleibt der Erfolg aus - ein Hinweis darauf, dass die KI nicht nur im Finden, sondern auch im fehlerfreien Abarbeiten vor gelernter Schrittfolgen eingeschränkt ist.

Die Ergebnisse dieser Apple-Studie werfen wichtige Fragen für den künftigen Einsatz von KI auf. Anwendungen in Robotik, Finanzanalyse oder komplexen Entscheidungsprozessen setzen verlässliche Planungsfähigkeiten voraus. Solange Modelle ihre internen Denkstrategien nicht skalieren können, bleibt unklar, wie verantwortungsvolle Lösungen aussehen.

Kann man bei plötzlichen Token-Abbrüchen und Rätselscheitern wirklich von "Intelligenz" bei KI sprechen? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte finden Sie bei Youtube, Instagram und Tiktok.

Quelle: Apple via Tom's Hardware

5
    • Kommentare (5)

      Zur Diskussion im Forum
      • Von shaboo BIOS-Overclocker(in)
        Zitat von Misanthrop68
        Beruhigend das die KI noch nicht so weit sind. Beunruhigend ist, das Trost dieser Unzulänglichkeit die Unfehlbarkeit, heute schon angenommen wird.
        Keine Ahnung, wer das deiner Meinung nach annimmt.
        Zitat von Misanthrop68
        Der jünger Teil der Gesellschaft nimmt jetzt schon ChatGPT für bare Münze.
        Blödsinn. Wer derart pauschalisierend über "den jüngeren Teil der Gesellschaft" spricht, disqualifiziert sich eh für jede sinnvolle Diskussion.

        Ehrlich, deine Pauschalisierungen und Vorurteile sind auch nicht intelligenter als der größte Quark, den eine KI von sich geben könnte.
      • Von shaboo BIOS-Overclocker(in)
        Zitat von Misanthrop68
        Beruhigend das die KI noch nicht so weit sind. Beunruhigend ist, das Trost dieser Unzulänglichkeit die Unfehlbarkeit, heute schon angenommen wird.
        Keine Ahnung, wer das deiner Meinung nach annimmt.
        Zitat von Misanthrop68
        Der jünger Teil der Gesellschaft nimmt jetzt schon ChatGPT für bare Münze.
        Blödsinn. Wer derart pauschalisierend über "den jüngeren Teil der Gesellschaft" spricht, disqualifiziert sich eh für jede sinnvolle Diskussion.

        Ehrlich, deine Pauschalisierungen und Vorurteile sind auch nicht intelligenter als der größte Quark, den eine KI von sich geben könnte.
      • Von Misanthrop68 Volt-Modder(in)
        Beruhigend das die KI noch nicht so weit sind. Beunruhigend ist, das Trost dieser Unzulänglichkeit die Unfehlbarkeit, heute schon angenommen wird. Der jünger Teil der Gesellschaft nimmt jetzt schon ChatGPT für bare Münze.

        Zitat von shaboo
        Für viele Probleme - auch für die Puzzles in diesem Paper - gibt es ja bereits effiziente und teils sogar optimale Algorithmen, bei denen der Einsatz von KI überhaupt nicht zielführend ist. So dürfte der rekursive Algorithmus für die Türme von Hanoi so ziemlich der erste sein, den man im Informatikunterricht kennenlernt.
        Diese Algorithmen sind auch von Intelligenten Neuronalen Netzwerken geschrieben worden.
      • Von shaboo BIOS-Overclocker(in)
        Für viele Probleme - auch für die Puzzles in diesem Paper - gibt es ja bereits effiziente und teils sogar optimale Algorithmen, bei denen der Einsatz von KI überhaupt nicht zielführend ist. So dürfte der rekursive Algorithmus für die Türme von Hanoi so ziemlich der erste sein, den man im Informatikunterricht kennenlernt.

        Spannend finde ich in dem Zusammenhang das folgende Resultat (siehe Conclusion): "Most notably, we observed their limitations in performing exact computation; for example, when we provided the solution algorithm for the Tower of Hanoi to the models, their performance on this puzzle did not improve."
      • Von Wilbald_Meucheln Software-Overclocker(in)
        KI ist auch nur so gut wie ihr Schöpfer.
      • Von soulstyle Lötkolbengott/-göttin
        Ja, wir kompensieren das mal und in 20 Jahren sind wir da etwas weiter.
        Schließlich braucht ein Mensch ja auch zig Jahre, um seinen Erfahrungsschatz aufzubauen....
        Aber man fragt sich, warum können die nicht richtig skalieren?
        Sie haben einfach kein Gefühl, kein Gespür, nicht das Bewusstsein dafür....
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 06/2026 play5 07/2026 N-Zone 06/2026 Linux Magazin 06/2026 LinuxUser 06/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk