Was Apples „Illusion of Thinking“ über Reasoning Modelle aussagt, und warum die Antwort nicht im nächsten Frontier-Release liegt.
Im Juni 2025 hat Apple ein Paper veröffentlicht das in der AI-Community einige Diskussionen ausgelöst hat. „The Illusion of Thinking“ heisst es. Die Autoren um Parshin Shojaee und Mehrdad Farajtabar untersuchen systematisch was die neuen Reasoning Modelle (OpenAI o1/o3, DeepSeek R1, Claude 3.7 Sonnet Thinking, Gemini Thinking) eigentlich leisten, wenn sie ihre Chain-of-Thought ausrollen.
Ich finde das Paper auch heute, im Mai 2026, noch lesenswert. Die spezifischen Benchmark-Zahlen sind durch neuere Modellgenerationen überholt, das ist klar. Aber die methodische und strukturelle Beobachtung hält. Und sie ist relevant für jeden der über Enterprise AI nachdenkt: LLMs und LRMs als alleinige Lösung tragen nicht weit genug.
Was Apple gemacht hat
Statt der üblichen Math-Benchmarks (MATH-500, AIME etc.) die alle mit Datenkontamination kämpfen, haben die Researcher vier kontrollierbare Puzzles verwendet: Tower of Hanoi, Checker Jumping, River Crossing und Blocks World. Der Vorteil ist methodisch: die Komplexität lässt sich exakt parametrisieren (Anzahl Disks, Blöcke etc.), und ein Simulator kann jeden einzelnen Zwischenschritt validieren, nicht nur die finale Antwort.
Damit lässt sich beobachten was bei normalen Benchmarks unsichtbar bleibt. Also nicht nur ob ein Modell richtig liegt, sondern wo in der Gedankenkette es tatsächlich falsch abbiegt.
Der zentrale Befund: es lassen sich drei klar unterscheidbare Stufen identifizieren wenn die Komplexität steigt.

Bei niedriger Komplexität sind die Standard-LLMs (ohne Thinking-Modus) genauer und vor allem deutlich token-effizienter. Die Reasoning-Modelle zeigen hier ein Phänomen das die Autoren als „overthinking“ beschreiben: sie finden die korrekte Lösung früh, probieren danach aber weiter falsche Alternativen aus. Das kostet Compute ohne Nutzen.
Bei mittlerer Komplexität dreht sich das Bild. Hier zahlt der lange Chain-of-Thought sich aus, das Reasoning-Modell gewinnt im Vergleich zur Standard-Variante. Das ist auch der Bereich der in typischen Demos und Vergleichen gezeigt wird.
Bei hoher Komplexität kollabieren beide Modelltypen auf nahe null Prozent Accuracy. Das Reasoning-Modell verzögert den Kollaps, verhindert ihn aber nicht. Die Autoren schreiben dazu nüchtern, dass die Modelle „complete accuracy collapse beyond certain complexities“ erleiden. Komplett, nicht graduell.
Aufschlussreicher als der Kollaps selbst ist was kurz davor passiert:
Die Modelle reduzieren ihren Reasoning-Aufwand wieder, bevor sie kollabieren. Sie haben noch Token-Budget zur Verfügung, sie könnten weiterdenken. Sie tun es aber nicht. Apple nennt das ein „counterintuitive scaling limit“ und es ist tatsächlich nicht ohne weiteres erklärbar. Das Modell scheint irgendwo zu erkennen dass es nicht weiterkommt, und reduziert daraufhin seinen Aufwand.

Ebenso relevant ist ein weiterer Test im Paper. Die Forscher haben den Modellen den Lösungsalgorithmus explizit in den Prompt gegeben, also den rekursiven Hanoi-Algorithmus als Pseudocode. Das Modell muss ihn nicht mehr finden, sondern nur noch ausführen. Das Ergebnis: Kollaps an derselben Stelle. Keine Verbesserung.
Das ist methodisch wichtig. Es deutet darauf hin dass das Problem nicht primär im Auffinden der Strategie liegt, sondern in der konsistenten Ausführung logischer Schritte. Search ist nicht der Engpass, Execution ist es.
Wie zu erwarten ist relativ schnell eine Antwort gekommen. Im Juni 2025 veröffentlichten „C. Opus“ (der Co-Autor ist tatsächlich Claude Opus als Sprachmodell 😃) und Alex Lawsen von Open Philanthropy ein Gegenpaper mit dem Titel „The Illusion of the Illusion of Thinking“. Ihr Argument: ein Teil der beobachteten Kollapse seien Artefakte des Experimental-Setups. Token-Limits, fehlerhafte Auswertungsskripte, River-Crossing-Konfigurationen die bei N≥6 mit Bootskapazität 3 mathematisch nicht lösbar sind.
Diese Kritikpunkte sind teilweise berechtigt. Lawsen selbst hat das Paper im Nachhinein als halb-ironisch bezeichnet und war von der Reichweite überrascht. Inhaltlich bleibt aber unter anderem die Beobachtung dass „solution length poorly predicts problem difficulty“, also dass die Anzahl der nötigen Schritte ein unzureichender Komplexitätsindikator ist. Eine valide methodische Anmerkung.
Was die Kritik nicht leistet ist die Widerlegung der Kernbeobachtung. Eine Replikationsstudie aus dem CSIC in Madrid (Dellibarda Varela et al., Juli 2025, „Rethinking the Illusion of Thinking“) hat das Setup nachgebaut und um „agentic dialogue“ sowie „incremental stepwise prompting“ erweitert. Ergebnis: ein Teil der Effekte lässt sich auf Token-Limits zurückführen, das stimmt. Aber bei moderater Komplexität, etwa bei N=8 in Hanoi, „still stumble“ die LRMs trotzdem. Der grundlegende Befund hält also.
Apple hat in der dritten Version des Papers (November 2025) zudem einen Abschnitt mit Antworten auf die Hauptkritikpunkte eingefügt. River Crossing wurde auf N<6 eingeschränkt, Sampling-Effekte über Temperature Zero ausgeschlossen, zusätzliche Modellpaare aufgenommen (QwQ-32B / Qwen2.5-32B als Validierung). Die drei Regime und der Kollaps reproduzieren sich auch unter den verschärften Bedingungen.
In Kundengesprächen begegnet mir regelmässig die Annahme dass das aktuelle Modell-Verhalten ein temporäres Problem sei, das mit der nächsten Generation gelöst wird. „wenn wir erstmal Claude xx nuzten, dann geht alles viel einfacher“. Das Apple-Paper und die seitherige Diskussion legen nahe das das nicht so ist.
Das Modell alleine ist nicht der primäre Engpass. Mehr Tokens lösen es nicht, mehr Parameter offenbar auch nicht, und selbst der explizit gegebene Lösungsalgorithmus löst es nicht. Es ist ein architektonisches Problem, nicht primär ein Skalierungsproblem.
Das hat Konsequenzen für die Frage wie man Enterprise AI sinnvoll aufsetzt. Wer eine produktive AI-Lösung in regulierten Umgebungen aufbauen will kann sich nicht ausschliesslich auf das Modell verlassen. Es braucht eine Schicht drumherum.
Genau hier setzt neonet.AI an. Wenn das Modell selbst die korrekten Schritte weder zuverlässig finden noch ausführen kann, muss die Korrektheit aus der Umgebung kommen. Strukturiert, validiert, auditierbar.
Die drei Säulen:
Daten. Hier sitzt unsere TruthGuard®-Komponente als semantische Validierungsschicht. Ein Knowledge Graph in Neo4j mit formalen Constraints in SHACL, ergänzt um Ontology Alignment via Jaccard Similarity. Der Unterschied zu rein statistischem RAG ist konzeptionell: Aussagen werden gegen eine formale Ontologie geprüft, also als konsistent oder inkonsistent klassifiziert, nicht als wahrscheinlich oder unwahrscheinlich. Für Enterprise-Anwendungen ist das ein relevanter Unterschied.
Prozesse. Ein Process Designer der natürliche Sprache in ausführbare MCP-Agentenketten übersetzt, plus Pulse als Anomalie-Erkennung im Live-Betrieb. Was die LRMs laut Apple nicht zuverlässig leisten (lange konsistente Sequenzen ausführen) übernimmt eine Architektur die genau dafür ausgelegt ist. Das Apple-Paper beschreibt diese Schwäche klar: selbst mit gegebenem Algorithmus scheitert die Ausführung am selben Punkt wie ohne.
Governance. Ein Compliance-Agent dokumentiert Entscheidungen, prüft gegen die jeweiligen Regularien (EU AI Act, DSGVO, NIS2, DORA, BAIT je nach Sektor) und macht die Entscheidungswege auditierbar. In regulierten Branchen ist das keine Option sondern Voraussetzung.
Das Foundation Model ist in dieser Architektur die unterste Schicht. Wichtig, aber austauschbar. Das eigentliche Produkt liegt darüber.
Schluss
Das Apple-Paper ist nicht ohne berechtigte Kritik, und die konkreten Benchmark-Zahlen sind durch neuere Modelle überholt. Die strukturelle Aussage hält allerdings: Reasoning Modelle sind ein wichtiger Baustein, aber kein vollständiges Werkzeug. Wer Enterprise AI baut und auf das Modell alleine setzt, baut auf einer Schicht die laut der bisherigen Befunde an klar identifizierbaren Komplexitätsschwellen nachgibt.
Die Konsequenz daraus ist eine Architektur die das Modell stützt, ergänzt und kontrolliert. Daten, Prozesse, Governance. Das Modell als Commodity, die Architektur als Produkt. Das war die These im letzten Post auch schon, das Apple-Paper liefert dafür eine zusätzliche empirische Begründung.
Referenzen
Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., Farajtabar, M. (2025). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. arXiv:2506.06941v3 (November 2025).
Opus, C., Lawsen, A. (2025). The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. (2025). arXiv:2506.09250.
Dellibarda Varela, I., Romero-Sorozabal, P., Rocon, E., Cebrian, M. (2025). Rethinking the Illusion of Thinking. arXiv:2507.01231, CSIC Madrid.
Vorheriger Post in dieser Linie: Das Modell ist die Commodity (13. Mai 2026)