Apple-Tests zeigen: Komplexe Rätsel überfordern künstliche Intelligenz

News 10.06.2025 um 16:15 Uhr Jacqueline Brosch Als bevorzugte Quelle auf Google hinzufügen

Quelle: Symbolbild erzeugt mit DALL·E 3

Künstliche Intelligenz versagt laut einer aktuellen Apple-Studie bei anspruchsvollen Rätseln. Ab einem bestimmten Schwierigkeitsgrad brechen sowohl Treffergenauigkeit als auch "Denkaufwand" der Modelle abrupt ein.

Künstliche Intelligenz sorgt in vielen Bereichen für Fortschritte, doch eine neue Untersuchung von Apple offenbart klare Grenzen. Getestet wurden sowohl spezialisierte Denkmodelle (Large Reasoning Models, kurz LRM) als auch Standard-Sprachmodelle (LLM). Zu den untersuchten LRMs zählen o1 und o3-Mini von Open AI, Deepseek-R1, Claude 3.7 Sonnet Thinking und Gemini Flash Thinking. Deren nicht-denkenden Pendants entsprechen Modelle wie Deepseek-V3 und Claude 3.7 Sonnet ohne Thinking-Mechanismus.

In vier kontrollierten Puzzle-Umgebungen - darunter Turm von Hanoi, Checker-Springen, Flussüberquerungen und Blocks World - wurde die Modellleistung bei stetig ansteigender Schwierigkeit geprüft. Zunächst lösen die KI-Systeme einfache Aufgaben mit hoher Trefferquote. Mit zunehmender Komplexität jedoch verändert sich ihr internes Vorgehen drastisch: Sie messen ihren Denkaufwand in sogenannten Tokens - das sind kleine Informationseinheiten, vergleichbar mit Notizen oder Zwischenschritten beim Lösen eines Rätsels. In einfachen Szenarien wächst der Tokenverbrauch proportional zur Schwierigkeit. Überschreitet das Problem aber eine kritische Schwelle, schrumpft dieser Verbrauch plötzlich, obwohl das Modell noch genügend Kapazität hätte, weiterzurechnen.

Dieser abrupte Rückgang im Tokenverbrauch bedeutet nicht, dass die KI intelligenter wird, sondern dass ihr Planungsprozess versagt. Man kann sich das vorstellen wie einen Routenplaner, der bei unklaren Kartendaten einfach stehen bleibt, anstatt eine alternative Strecke zu suchen. Die Modelle geben auf, bevor sie neue Denkpfade erschließen können.

In mittleren Schwierigkeitsstufen übertreffen die LRMs ihre LLM-Gegenstücke, weil sie längere Ketten von Zwischenschritten auswerten. Doch jenseits dieser Stufe kollabiert die Leistung beider Modelltypen nahezu vollständig. Auch wenn der genaue Lösungsalgorithmus im Prompt vorgegeben wird, bleibt der Erfolg aus - ein Hinweis darauf, dass die KI nicht nur im Finden, sondern auch im fehlerfreien Abarbeiten vor gelernter Schrittfolgen eingeschränkt ist.

Die Ergebnisse dieser Apple-Studie werfen wichtige Fragen für den künftigen Einsatz von KI auf. Anwendungen in Robotik, Finanzanalyse oder komplexen Entscheidungsprozessen setzen verlässliche Planungsfähigkeiten voraus. Solange Modelle ihre internen Denkstrategien nicht skalieren können, bleibt unklar, wie verantwortungsvolle Lösungen aussehen.

Kann man bei plötzlichen Token-Abbrüchen und Rätselscheitern wirklich von "Intelligenz" bei KI sprechen? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte finden Sie bei Youtube, Instagram und Tiktok.

Quelle: Apple via Tom's Hardware