Large Language Models (LLMs) erklärt

Large Language Models (LLMs) sind die Technologie hinter ChatGPT, Claude, Gemini und anderen KI-Assistenten. Sie haben in wenigen Jahren unsere Interaktion mit Computern revolutioniert. Aber wie funktionieren sie wirklich? (Noch neu bei KI? Starten Sie mit unserem Grundlagen-Guide zu künstlicher Intelligenz.)

Ein LLM ist ein KI-System, das auf riesigen Textmengen trainiert wurde, um menschliche Sprache zu verstehen und zu generieren. Es kann Fragen beantworten, Texte schreiben, Code erstellen, Dokumente zusammenfassen und vieles mehr. Die Basis ist die Transformer-Architektur aus dem Jahr 2017.

LLMs in Zahlen (2025)

1.8T+

Parameter (GPT-4)

Token Kontext (Gemini)

$100M+

Training-Kosten (Top-Modelle)

77%

SWE-bench (Claude)

Die Kernidee: Nächstes Wort vorhersagen

Im Kern machen LLMs etwas Einfaches: Sie sagen das wahrscheinlichste nächste Wort voraus. Wenn Sie "Die Hauptstadt von Frankreich ist" eingeben, hat das Modell gelernt, dass "Paris" die wahrscheinlichste Fortsetzung ist.

Die Transformer-Architektur

Alle modernen LLMs basieren auf der Transformer-Architektur, die 2017 im Paper "Attention Is All You Need" vorgestellt wurde. Der Durchbruch war der Attention-Mechanismus, der es ermöglicht, Beziehungen zwischen allen Wörtern in einem Text gleichzeitig zu erfassen.

Tokenizer

Zerlegt Text in Token (Wörter, Teilwörter, Zeichen). GPT-4 verwendet BPE (Byte Pair Encoding).

Analogie: Wie ein Text in einzelne Legosteine zerlegt wird

Embedding Layer

Wandelt jeden Token in einen Vektor um, der seine Bedeutung im Kontext erfasst.

Analogie: Jedes Wort bekommt eine Position im 'Bedeutungsraum'

Transformer Blocks

Mehrere Schichten mit Self-Attention und Feed-Forward-Netzwerken. GPT-4 hat ~120 Schichten.

Analogie: Wie gestapelte Filter, die immer komplexere Muster erkennen

Attention Mechanism

Ermöglicht jedem Token, alle anderen Token zu 'beachten'. Kernidee von Transformern.

Analogie: Jedes Wort schaut sich alle anderen Wörter an und entscheidet, welche relevant sind

Output Layer

Berechnet Wahrscheinlichkeiten für den nächsten Token aus dem Vokabular.

Analogie: Wie ein Rätselrater, der das nächste Wort vorhersagt

Warum Transformer so gut funktionieren

Parallelisierung: Anders als RNNs können Transformer alle Token gleichzeitig verarbeiten, was das Training massiv beschleunigt
Langreichweitige Abhängigkeiten: Attention erfasst Beziehungen zwischen weit entfernten Wörtern
Skalierbarkeit: Mehr Parameter + mehr Daten = bessere Leistung (Scaling Laws)

Wie LLMs trainiert werden

Das Training eines LLM wie GPT-5 oder Claude ist ein mehrstufiger Prozess, der Monate dauert und Millionen kostet:

Pre-Training

Wochen bis Monate

Daten: Billionen von Tokens (Internet, Bücher, Code)

Ziel: Sprachverständnis, Weltwissen, Muster lernen

Methode: Next-Token-Prediction auf massiven Datenmengen

Supervised Fine-Tuning (SFT)

Tage bis Wochen

Daten: Zehntausende hochwertige Beispiele

Ziel: Konversationsstil, Hilfsbereitschaft, Formatierung

Methode: Menschliche Trainer schreiben ideale Antworten

RLHF / DPO

Tage bis Wochen

Daten: Menschliche Bewertungen von Antworten

Ziel: Alignment mit menschlichen Präferenzen, Sicherheit

Methode: Reinforcement Learning oder Direct Preference Optimization

Die führenden LLMs im Dezember 2025

2025 markiert einen Wendepunkt: LLMs sind nicht mehr nur Textvorhersager, sondern Agenten, die planen, Werkzeuge nutzen und mehrstufige Aufgaben autonom ausführen können.

GPT-5.2

OpenAI

Dezember 2025Kontext: 400K Token (128K Output)

Adaptives Reasoning (2s für einfach, 10s+ für komplex)
Native Video-Verständnis
50% weniger Token-Verbrauch bei gleicher Qualität
Zwei interne Modelle (Speed + Deep Reasoning)

Stärken: Allround, Multimedia, Reasoning, Vielseitigkeit

Claude Opus 4.5 / Sonnet 4.5

Anthropic

November 2025Kontext: 200K / 1M Token

77,2% auf SWE-bench Verified (Coding-Weltrekord)
Sonnet 4.5 mit 1M Token Kontext
Agent-optimiert (Stabilität, Tool-Use, Erklärbarkeit)
Constitutional AI für Sicherheit

Stärken: Coding, technisches Schreiben, lange Dokumente, Agents

Gemini 3 Pro

Google

November 2025Kontext: 1M Token (2M angekündigt)

#1 auf LMArena Benchmark
Deep Think Modus für komplexe Probleme
Native Multimodalität (Text, Bild, Audio, Video)
Google Search + Code Execution integriert

Stärken: Kontext-Länge, Research, Google-Integration, Multimodal

DeepSeek V3.2

DeepSeek

2025Kontext: 128K Token

Sparse Attention: O(L²) → O(kL) Komplexität
R1 Reasoning-Modell mit 70% auf AIME
Open Source mit Apache 2.0 Lizenz
Extrem kosteneffizient

Stärken: Kosten-Effizienz, Reasoning, Open Source

Wichtige Begriffe erklärt

Token

Die kleinste Einheit, die ein LLM verarbeitet. Ein Wort kann 1-4 Token sein. 'Künstliche' = 3 Token (Künst, lich, e).

Kontext-Fenster

Wie viel Text das Modell gleichzeitig 'sehen' kann. GPT-5.2: 400K Token ≈ 300.000 Wörter ≈ 4 Bücher.

Parameter

Die 'Gewichte' im neuronalen Netz. GPT-4 hat ~1.8 Billionen Parameter. Mehr Parameter ≠ automatisch besser.

Inference

Der Prozess, wenn ein trainiertes Modell eine Antwort generiert. Kostet Rechenzeit und Geld pro Token.

Halluzination

Wenn ein LLM plausibel klingende, aber falsche Informationen generiert. Ein grundlegendes Problem aller LLMs.

Reasoning

Die Fähigkeit, logisch zu schlussfolgern. Neue Modelle haben 'Thinking Modes' für komplexe Probleme.

Die Evolution der LLMs

2017

Transformer-Architektur

'Attention Is All You Need' Paper von Google

2018

GPT-1 & BERT

Erste große Sprachmodelle zeigen Transfer Learning

2020

GPT-3

175B Parameter, Few-Shot Learning, API-Zugang

2022

ChatGPT

RLHF macht LLMs für alle nutzbar. Explosion der Nutzung

2023

GPT-4 & Claude 2

Multimodalität, längerer Kontext, bessere Zuverlässigkeit

2024

Reasoning-Modelle

o1, DeepSeek R1: LLMs lernen 'nachzudenken'

2025

Agent-Ära

LLMs führen mehrstufige Aufgaben autonom aus (Tools, Code, Actions)

Grenzen und Herausforderungen

Trotz aller Fortschritte haben LLMs fundamentale Limitationen:

Halluzinationen

LLMs generieren manchmal plausibel klingende, aber falsche Informationen. Das liegt in ihrer statistischen Natur begründet.

Kein echtes Verständnis

LLMs erkennen Muster, verstehen aber nicht wirklich. Sie haben kein Weltmodell und kein Bewusstsein.

Wissens-Cutoff

Das Wissen ist auf das Trainingsende begrenzt. Aktuelle Ereignisse erfordern Retrieval (RAG) oder Websuche.

Bias und Fairness

LLMs übernehmen Verzerrungen aus den Trainingsdaten. Trotz RLHF bleiben Bias-Probleme.

Häufig gestellte Fragen

Wie funktioniert ChatGPT im Kern?

ChatGPT ist ein LLM, das auf der Transformer-Architektur basiert. Es wurde auf Billionen von Texten trainiert, um das nächste Wort vorherzusagen. Durch RLHF (Reinforcement Learning from Human Feedback) wurde es darauf optimiert, hilfreich und sicher zu antworten. Wenn Sie eine Frage stellen, generiert es Token für Token eine Antwort basierend auf statistischen Mustern.

Warum halluzinieren LLMs?

LLMs sind statistische Modelle, keine Datenbanken. Sie generieren plausibel klingende Fortsetzungen basierend auf Mustern, nicht auf Fakten. Wenn ein Muster 'passt', wird es generiert, auch wenn der Inhalt falsch ist. Das ist kein Bug, sondern liegt in der Funktionsweise. Abhilfe: Faktenprüfung, Retrieval-Augmented Generation (RAG), oder Modelle mit besserer Kalibrierung.

Was ist der Unterschied zwischen GPT-5, Claude und Gemini?

GPT-5.2 (OpenAI): Allrounder mit bestem Multimedia-Support und adaptivem Reasoning. Claude Opus/Sonnet 4.5 (Anthropic): Führend bei Coding (77,2% SWE-bench), fokussiert auf Sicherheit und lange Dokumente. Gemini 3 (Google): Größtes Kontext-Fenster (1M Token), tiefe Google-Integration, stark bei Research. Keines ist 'das Beste', sie haben unterschiedliche Stärken.

Was bedeutet '100K Token Kontext'?

100K Token ≈ 75.000 Wörter ≈ 1 langes Buch. Das Kontext-Fenster ist der Text, den das Modell gleichzeitig 'sehen' kann: Ihre Frage + bisherige Konversation + Systemanweisungen. Gemini 3 Pro hat 1M Token (≈ 10 Bücher). Wichtig: Längerer Kontext ≠ besseres Verständnis. Die Qualität variiert je nach Position im Kontext.

Sind LLMs wirklich intelligent?

LLMs zeigen beeindruckende Fähigkeiten, aber keine allgemeine Intelligenz (AGI). Sie erkennen Muster und generieren plausible Fortsetzungen. Sie verstehen nicht wirklich, haben kein Bewusstsein und können nicht außerhalb ihres Trainings generalisieren. Die neue Generation (GPT-5, o1) zeigt besseres Reasoning, aber fundamentale Grenzen bleiben.

Wie viel kostet das Training eines LLM?

Enorm. GPT-4 Training kostete geschätzt $100+ Millionen (Compute, Daten, Personal). Kleinere Modelle (7B-70B Parameter) können für $100K-$1M trainiert werden. Inference (Nutzung) kostet $1-15 pro Million Input-Token je nach Modell. Für normale Nutzer: API-Kosten von wenigen Cent bis Dollar pro Konversation.

LLMs in Zahlen (2025)

Die Kernidee: Nächstes Wort vorhersagen

Die Transformer-Architektur

Tokenizer

Embedding Layer

Transformer Blocks

Attention Mechanism

Output Layer

Warum Transformer so gut funktionieren

Wie LLMs trainiert werden

Pre-Training

Supervised Fine-Tuning (SFT)

RLHF / DPO

Die führenden LLMs im Dezember 2025

GPT-5.2

Claude Opus 4.5 / Sonnet 4.5

Gemini 3 Pro

DeepSeek V3.2

Wichtige Begriffe erklärt

Token

Kontext-Fenster

Parameter

Inference

Halluzination

Reasoning

Die Evolution der LLMs

Transformer-Architektur

GPT-1 & BERT

GPT-3

ChatGPT

GPT-4 & Claude 2

Reasoning-Modelle

Agent-Ära

Grenzen und Herausforderungen

Halluzinationen

Kein echtes Verständnis

Wissens-Cutoff

Bias und Fairness

Häufig gestellte Fragen

Weiterführende Artikel