Large Language Models (LLMs) sind die Technologie hinter ChatGPT, Claude, Gemini und anderen KI-Assistenten. Sie haben in wenigen Jahren unsere Interaktion mit Computern revolutioniert. Aber wie funktionieren sie wirklich? (Noch neu bei KI? Starten Sie mit unserem Grundlagen-Guide zu künstlicher Intelligenz.)
Ein LLM ist ein KI-System, das auf riesigen Textmengen trainiert wurde, um menschliche Sprache zu verstehen und zu generieren. Es kann Fragen beantworten, Texte schreiben, Code erstellen, Dokumente zusammenfassen und vieles mehr. Die Basis ist die Transformer-Architektur aus dem Jahr 2017.
LLMs in Zahlen (2025)
1.8T+
Parameter (GPT-4)
1M
Token Kontext (Gemini)
$100M+
Training-Kosten (Top-Modelle)
77%
SWE-bench (Claude)
Die Kernidee: Nächstes Wort vorhersagen
Im Kern machen LLMs etwas Einfaches: Sie sagen das wahrscheinlichste nächste Wort voraus. Wenn Sie "Die Hauptstadt von Frankreich ist" eingeben, hat das Modell gelernt, dass "Paris" die wahrscheinlichste Fortsetzung ist.
Die Transformer-Architektur
Alle modernen LLMs basieren auf der Transformer-Architektur, die 2017 im Paper "Attention Is All You Need" vorgestellt wurde. Der Durchbruch war der Attention-Mechanismus, der es ermöglicht, Beziehungen zwischen allen Wörtern in einem Text gleichzeitig zu erfassen.
Tokenizer
Zerlegt Text in Token (Wörter, Teilwörter, Zeichen). GPT-4 verwendet BPE (Byte Pair Encoding).
Analogie: Wie ein Text in einzelne Legosteine zerlegt wird
Embedding Layer
Wandelt jeden Token in einen Vektor um, der seine Bedeutung im Kontext erfasst.
Analogie: Jedes Wort bekommt eine Position im 'Bedeutungsraum'
Transformer Blocks
Mehrere Schichten mit Self-Attention und Feed-Forward-Netzwerken. GPT-4 hat ~120 Schichten.
Analogie: Wie gestapelte Filter, die immer komplexere Muster erkennen
Attention Mechanism
Ermöglicht jedem Token, alle anderen Token zu 'beachten'. Kernidee von Transformern.
Analogie: Jedes Wort schaut sich alle anderen Wörter an und entscheidet, welche relevant sind
Output Layer
Berechnet Wahrscheinlichkeiten für den nächsten Token aus dem Vokabular.
Analogie: Wie ein Rätselrater, der das nächste Wort vorhersagt
Warum Transformer so gut funktionieren
- Parallelisierung: Anders als RNNs können Transformer alle Token gleichzeitig verarbeiten, was das Training massiv beschleunigt
- Langreichweitige Abhängigkeiten: Attention erfasst Beziehungen zwischen weit entfernten Wörtern
- Skalierbarkeit: Mehr Parameter + mehr Daten = bessere Leistung (Scaling Laws)
Wie LLMs trainiert werden
Das Training eines LLM wie GPT-5 oder Claude ist ein mehrstufiger Prozess, der Monate dauert und Millionen kostet:
Pre-Training
Wochen bis MonateDaten: Billionen von Tokens (Internet, Bücher, Code)
Ziel: Sprachverständnis, Weltwissen, Muster lernen
Methode: Next-Token-Prediction auf massiven Datenmengen
Supervised Fine-Tuning (SFT)
Tage bis WochenDaten: Zehntausende hochwertige Beispiele
Ziel: Konversationsstil, Hilfsbereitschaft, Formatierung
Methode: Menschliche Trainer schreiben ideale Antworten
RLHF / DPO
Tage bis WochenDaten: Menschliche Bewertungen von Antworten
Ziel: Alignment mit menschlichen Präferenzen, Sicherheit
Methode: Reinforcement Learning oder Direct Preference Optimization
Die führenden LLMs im Dezember 2025
2025 markiert einen Wendepunkt: LLMs sind nicht mehr nur Textvorhersager, sondern Agenten, die planen, Werkzeuge nutzen und mehrstufige Aufgaben autonom ausführen können.
GPT-5.2
OpenAI- Adaptives Reasoning (2s für einfach, 10s+ für komplex)
- Native Video-Verständnis
- 50% weniger Token-Verbrauch bei gleicher Qualität
- Zwei interne Modelle (Speed + Deep Reasoning)
Stärken: Allround, Multimedia, Reasoning, Vielseitigkeit
Claude Opus 4.5 / Sonnet 4.5
Anthropic- 77,2% auf SWE-bench Verified (Coding-Weltrekord)
- Sonnet 4.5 mit 1M Token Kontext
- Agent-optimiert (Stabilität, Tool-Use, Erklärbarkeit)
- Constitutional AI für Sicherheit
Stärken: Coding, technisches Schreiben, lange Dokumente, Agents
Gemini 3 Pro
Google- #1 auf LMArena Benchmark
- Deep Think Modus für komplexe Probleme
- Native Multimodalität (Text, Bild, Audio, Video)
- Google Search + Code Execution integriert
Stärken: Kontext-Länge, Research, Google-Integration, Multimodal
DeepSeek V3.2
DeepSeek- Sparse Attention: O(L²) → O(kL) Komplexität
- R1 Reasoning-Modell mit 70% auf AIME
- Open Source mit Apache 2.0 Lizenz
- Extrem kosteneffizient
Stärken: Kosten-Effizienz, Reasoning, Open Source
Wichtige Begriffe erklärt
Token
Die kleinste Einheit, die ein LLM verarbeitet. Ein Wort kann 1-4 Token sein. 'Künstliche' = 3 Token (Künst, lich, e).
Kontext-Fenster
Wie viel Text das Modell gleichzeitig 'sehen' kann. GPT-5.2: 400K Token ≈ 300.000 Wörter ≈ 4 Bücher.
Parameter
Die 'Gewichte' im neuronalen Netz. GPT-4 hat ~1.8 Billionen Parameter. Mehr Parameter ≠ automatisch besser.
Inference
Der Prozess, wenn ein trainiertes Modell eine Antwort generiert. Kostet Rechenzeit und Geld pro Token.
Halluzination
Wenn ein LLM plausibel klingende, aber falsche Informationen generiert. Ein grundlegendes Problem aller LLMs.
Reasoning
Die Fähigkeit, logisch zu schlussfolgern. Neue Modelle haben 'Thinking Modes' für komplexe Probleme.
Die Evolution der LLMs
Transformer-Architektur
'Attention Is All You Need' Paper von Google
GPT-1 & BERT
Erste große Sprachmodelle zeigen Transfer Learning
GPT-3
175B Parameter, Few-Shot Learning, API-Zugang
ChatGPT
RLHF macht LLMs für alle nutzbar. Explosion der Nutzung
GPT-4 & Claude 2
Multimodalität, längerer Kontext, bessere Zuverlässigkeit
Reasoning-Modelle
o1, DeepSeek R1: LLMs lernen 'nachzudenken'
Agent-Ära
LLMs führen mehrstufige Aufgaben autonom aus (Tools, Code, Actions)
Grenzen und Herausforderungen
Trotz aller Fortschritte haben LLMs fundamentale Limitationen:
Halluzinationen
LLMs generieren manchmal plausibel klingende, aber falsche Informationen. Das liegt in ihrer statistischen Natur begründet.
Kein echtes Verständnis
LLMs erkennen Muster, verstehen aber nicht wirklich. Sie haben kein Weltmodell und kein Bewusstsein.
Wissens-Cutoff
Das Wissen ist auf das Trainingsende begrenzt. Aktuelle Ereignisse erfordern Retrieval (RAG) oder Websuche.
Bias und Fairness
LLMs übernehmen Verzerrungen aus den Trainingsdaten. Trotz RLHF bleiben Bias-Probleme.