Apple-Tests zeigen: Komplexe Rätsel überfordern künstliche Intelligenz
Künstliche Intelligenz versagt laut einer aktuellen Apple-Studie bei anspruchsvollen Rätseln. Ab einem bestimmten Schwierigkeitsgrad brechen sowohl Treffergenauigkeit als auch "Denkaufwand" der Modelle abrupt ein.
Künstliche Intelligenz sorgt in vielen Bereichen für Fortschritte, doch eine neue Untersuchung von Apple offenbart klare Grenzen. Getestet wurden sowohl spezialisierte Denkmodelle (Large Reasoning Models, kurz LRM) als auch Standard-Sprachmodelle (LLM). Zu den untersuchten LRMs zählen o1 und o3-Mini von Open AI, Deepseek-R1, Claude 3.7 Sonnet Thinking und Gemini Flash Thinking. Deren nicht-denkenden Pendants entsprechen Modelle wie Deepseek-V3 und Claude 3.7 Sonnet ohne Thinking-Mechanismus.
In vier kontrollierten Puzzle-Umgebungen - darunter Turm von Hanoi, Checker-Springen, Flussüberquerungen und Blocks World - wurde die Modellleistung bei stetig ansteigender Schwierigkeit geprüft. Zunächst lösen die KI-Systeme einfache Aufgaben mit hoher Trefferquote. Mit zunehmender Komplexität jedoch verändert sich ihr internes Vorgehen drastisch: Sie messen ihren Denkaufwand in sogenannten Tokens - das sind kleine Informationseinheiten, vergleichbar mit Notizen oder Zwischenschritten beim Lösen eines Rätsels. In einfachen Szenarien wächst der Tokenverbrauch proportional zur Schwierigkeit. Überschreitet das Problem aber eine kritische Schwelle, schrumpft dieser Verbrauch plötzlich, obwohl das Modell noch genügend Kapazität hätte, weiterzurechnen.
Dieser abrupte Rückgang im Tokenverbrauch bedeutet nicht, dass die KI intelligenter wird, sondern dass ihr Planungsprozess versagt. Man kann sich das vorstellen wie einen Routenplaner, der bei unklaren Kartendaten einfach stehen bleibt, anstatt eine alternative Strecke zu suchen. Die Modelle geben auf, bevor sie neue Denkpfade erschließen können.
In mittleren Schwierigkeitsstufen übertreffen die LRMs ihre LLM-Gegenstücke, weil sie längere Ketten von Zwischenschritten auswerten. Doch jenseits dieser Stufe kollabiert die Leistung beider Modelltypen nahezu vollständig. Auch wenn der genaue Lösungsalgorithmus im Prompt vorgegeben wird, bleibt der Erfolg aus - ein Hinweis darauf, dass die KI nicht nur im Finden, sondern auch im fehlerfreien Abarbeiten vor gelernter Schrittfolgen eingeschränkt ist.
Die Ergebnisse dieser Apple-Studie werfen wichtige Fragen für den künftigen Einsatz von KI auf. Anwendungen in Robotik, Finanzanalyse oder komplexen Entscheidungsprozessen setzen verlässliche Planungsfähigkeiten voraus. Solange Modelle ihre internen Denkstrategien nicht skalieren können, bleibt unklar, wie verantwortungsvolle Lösungen aussehen.
Kann man bei plötzlichen Token-Abbrüchen und Rätselscheitern wirklich von "Intelligenz" bei KI sprechen? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte finden Sie bei Youtube, Instagram und Tiktok.
Quelle: Apple via Tom's Hardware

Ehrlich, deine Pauschalisierungen und Vorurteile sind auch nicht intelligenter als der größte Quark, den eine KI von sich geben könnte.
Spannend finde ich in dem Zusammenhang das folgende Resultat (siehe Conclusion): "Most notably, we observed their limitations in performing exact computation; for example, when we provided the solution algorithm for the Tower of Hanoi to the models, their performance on this puzzle did not improve."
Schließlich braucht ein Mensch ja auch zig Jahre, um seinen Erfahrungsschatz aufzubauen....
Aber man fragt sich, warum können die nicht richtig skalieren?
Sie haben einfach kein Gefühl, kein Gespür, nicht das Bewusstsein dafür....