Reasoning-Modelle: Wenn KI logisch denkt

Im Dezember 2025 veröffentlichte DeepSeek ein Modell, das bei der William Lowell Putnam Mathematical Competition 118 von 120 Punkten erreichte, deutlich mehr als der beste menschliche Teilnehmer mit 90 Punkten. Wenige Wochen später stellte Google Gemini 3 Flash vor, das auf dem PhD-Level-Benchmark GPQA Diamond 90,4 Prozent erreicht. OpenAIs GPT-5.2 Thinking reduzierte Fehler um 30 Prozent gegenüber dem Vorgänger. Die Reasoning-Revolution ist in vollem Gange.
Was unterscheidet diese neuen Modelle von ihren Vorgängern? Die Antwort liegt in einer scheinbar einfachen Idee: Bevor die KI antwortet, denkt sie nach.
Was Reasoning-Modelle anders machen
Ein klassisches Sprachmodell generiert Token für Token, Wort für Wort, basierend auf Wahrscheinlichkeiten. Es produziert die wahrscheinlichste Fortsetzung dessen, was bisher geschrieben wurde. Das funktioniert erstaunlich gut für viele Aufgaben, aber bei komplexen logischen Problemen stößt es an Grenzen.
Reasoning-Modelle fügen einen Zwischenschritt ein: Bevor sie die endgültige Antwort generieren, durchlaufen sie eine Phase des »Nachdenkens«. Sie zerlegen Probleme in Teilschritte, formulieren Hypothesen, überprüfen ihre eigene Logik, korrigieren Fehler. Diese interne Verarbeitung geschieht mit sogenannten »Thinking Tokens«, die der Nutzer je nach System sehen kann oder nicht.
OpenAI nennt dies »serial test-time compute«: Statt nur einmal durch das Netzwerk zu laufen, investiert das Modell mehr Rechenzeit in schwierige Fragen. Anthropic spricht von »extended thinking«, Google von »Deep Think Mode«. Die Terminologie variiert, das Prinzip ist das gleiche.
Die aktuelle Landschaft
Ende 2025 gibt es mehrere führende Reasoning-Modelle, die sich in Stärken und Schwächen unterscheiden.
Googles Gemini 3 Pro hat im November 2025 einen historischen Elo-Score von 1501 auf LMArena erreicht und führt bei vielen Benchmarks. Die neue Gemini 3 Flash Variante vom Dezember 2025 bietet ähnliche Leistung bei niedrigeren Kosten und ist jetzt der Standard in der Gemini-App.
OpenAIs GPT-5.2 kam im Dezember 2025 als Reaktion auf Googles Vorsprung. Es gibt drei Varianten: Instant für schnelle Aufgaben, Thinking für strukturierte Arbeit wie Coding, und Pro für die höchste Genauigkeit. Das spezialisierte GPT-5.2-Codex gilt als das fortschrittlichste agentische Coding-Modell.
Anthropics Claude Opus 4.5, veröffentlicht im November 2025, punktet besonders bei Coding und agentischen Aufgaben. Mit 80,9 Prozent auf SWE-bench Verified setzt es neue Maßstäbe für praktische Softwareentwicklung. Der »Extended Thinking« Modus ist standardmäßig aktiviert.
DeepSeek aus China überrascht mit DeepSeek-V3.2 und V3.2-Speciale, beide im Dezember 2025 veröffentlicht. Das Speciale-Modell erreichte Gold bei vier internationalen Elite-Wettbewerben: 35 von 42 Punkten bei der Internationalen Mathematik-Olympiade 2025 (Goldmedaille), 492 von 600 Punkten bei der Internationalen Informatik-Olympiade (Goldmedaille, Rang 10), 10 von 12 gelöste Probleme bei den ICPC World Finals (Platz 2), und Gold bei der China Mathematical Olympiad. Das Modell hat 685 Milliarden Parameter und nutzt eine Mixture-of-Experts-Architektur, die Inferenzkosten etwa halbiert.
Warum das wichtig ist
Die Benchmarks sind beeindruckend, aber was bedeutet das praktisch? Reasoning-Modelle verändern, was mit KI möglich ist.
Bei komplexen Programmieraufgaben können sie nicht nur Code schreiben, sondern Architekturen entwerfen, Trade-offs abwägen, Bugs systematisch suchen. Bei wissenschaftlichen Fragen können sie Hypothesen formulieren und prüfen, statt nur Fakten zu zitieren. Bei Geschäftsentscheidungen können sie verschiedene Szenarien durchspielen und Konsequenzen analysieren.
Die Grenzen verschieben sich. Aufgaben, die vor einem Jahr noch als »zu komplex für KI« galten, werden lösbar. Das bedeutet nicht, dass die Modelle perfekt sind, aber das Spektrum dessen, was sie bewältigen können, wächst schnell.
Die Kosten des Nachdenkens
Reasoning hat seinen Preis, wörtlich. Mehr Denkzeit bedeutet mehr Tokens, mehr Tokens bedeuten höhere Kosten. Claude Opus 4.5 kostet 5 Dollar pro Million Input-Tokens und 25 Dollar pro Million Output-Tokens, GPT-5.2 Pro liegt bei ähnlichen Preisen für maximale Genauigkeit. Das ist ein Vielfaches günstigerer Modelle wie Gemini 3 Flash, das bei 0,50 Dollar für Input und 3 Dollar für Output liegt.
Die Latenz ist ein weiterer Faktor. Ein Modell, das »nachdenkt«, antwortet langsamer. Für manche Anwendungen ist das akzeptabel, für andere nicht. Die Anbieter lösen das durch Modellvarianten: schnelle Modelle für einfache Fragen, langsame für komplexe.
DeepSeeks Erfolg zeigt allerdings, dass Reasoning nicht zwangsläufig teuer sein muss. Ihre Modelle erreichen vergleichbare Leistung bei deutlich niedrigeren Preisen, was Fragen über die Effizienz westlicher Entwicklungsansätze aufwirft.
Wohin es geht
Der Trend ist klar: Mehr Denkzeit, bessere Ergebnisse. Die Forschung zeigt, dass die Leistung von Reasoning-Modellen mit der investierten Rechenzeit skaliert. Das eröffnet einen neuen Optimierungsraum: Statt nur größere Modelle zu bauen, kann man bestehende Modelle länger denken lassen.
Die nächste Generation wird wahrscheinlich noch flexibler sein. Modelle, die selbst entscheiden, wie viel Denkzeit ein Problem erfordert. Systeme, die bei einfachen Fragen sofort antworten und bei komplexen in die Tiefe gehen. Die Grenze zwischen »schnell und oberflächlich« und »langsam und gründlich« wird fließender.
Für Nutzer bedeutet das: Die Wahl des richtigen Modells wird komplexer, aber auch die Möglichkeiten wachsen. Reasoning-Modelle sind nicht für jede Aufgabe die beste Wahl, aber für die richtigen Aufgaben sind sie ein Quantensprung.
KI und die Zukunft der Arbeit: Wer gewinnt, wer verliert
Einstiegsjobs verschwinden, neue KI-Berufe entstehen: Aktuelle Studien zeigen, wie die Arbeitswelt s
KI in der Wissenschaft: Wie künstliche Intelligenz Forschung revolutioniert
Von AlphaFold über KI-Co-Wissenschaftler bis zu selbstfahrenden Laboren: Wie KI wissenschaftliche En