Zum Hauptinhalt springen

GENERATIVE KI

Was sind Large Language Models?

Die Technologie hinter ChatGPT, Claude und Gemini: Wie LLMs funktionieren, wie sie trainiert werden, und was die aktuellen Modelle 2025 können.

Grundlagen · Dezember 2025 · Mit Architektur

Large Language Models (LLMs) sind die Technologie hinter ChatGPT, Claude, Gemini und anderen KI-Assistenten. Sie haben in wenigen Jahren unsere Interaktion mit Computern revolutioniert. Aber wie funktionieren sie wirklich? (Noch neu bei KI? Starten Sie mit unserem Grundlagen-Guide zu künstlicher Intelligenz.)

Ein LLM ist ein KI-System, das auf riesigen Textmengen trainiert wurde, um menschliche Sprache zu verstehen und zu generieren. Es kann Fragen beantworten, Texte schreiben, Code erstellen, Dokumente zusammenfassen und vieles mehr. Die Basis ist die Transformer-Architektur aus dem Jahr 2017.

LLMs in Zahlen (2025)

1.8T+

Parameter (GPT-4)

1M

Token Kontext (Gemini)

$100M+

Training-Kosten (Top-Modelle)

77%

SWE-bench (Claude)

Die Kernidee: Nächstes Wort vorhersagen

Im Kern machen LLMs etwas Einfaches: Sie sagen das wahrscheinlichste nächste Wort voraus. Wenn Sie "Die Hauptstadt von Frankreich ist" eingeben, hat das Modell gelernt, dass "Paris" die wahrscheinlichste Fortsetzung ist.

Die Transformer-Architektur

Alle modernen LLMs basieren auf der Transformer-Architektur, die 2017 im Paper "Attention Is All You Need" vorgestellt wurde. Der Durchbruch war der Attention-Mechanismus, der es ermöglicht, Beziehungen zwischen allen Wörtern in einem Text gleichzeitig zu erfassen.

Tokenizer

Zerlegt Text in Token (Wörter, Teilwörter, Zeichen). GPT-4 verwendet BPE (Byte Pair Encoding).

Analogie: Wie ein Text in einzelne Legosteine zerlegt wird

Embedding Layer

Wandelt jeden Token in einen Vektor um, der seine Bedeutung im Kontext erfasst.

Analogie: Jedes Wort bekommt eine Position im 'Bedeutungsraum'

Transformer Blocks

Mehrere Schichten mit Self-Attention und Feed-Forward-Netzwerken. GPT-4 hat ~120 Schichten.

Analogie: Wie gestapelte Filter, die immer komplexere Muster erkennen

Attention Mechanism

Ermöglicht jedem Token, alle anderen Token zu 'beachten'. Kernidee von Transformern.

Analogie: Jedes Wort schaut sich alle anderen Wörter an und entscheidet, welche relevant sind

Output Layer

Berechnet Wahrscheinlichkeiten für den nächsten Token aus dem Vokabular.

Analogie: Wie ein Rätselrater, der das nächste Wort vorhersagt

Warum Transformer so gut funktionieren

  • Parallelisierung: Anders als RNNs können Transformer alle Token gleichzeitig verarbeiten, was das Training massiv beschleunigt
  • Langreichweitige Abhängigkeiten: Attention erfasst Beziehungen zwischen weit entfernten Wörtern
  • Skalierbarkeit: Mehr Parameter + mehr Daten = bessere Leistung (Scaling Laws)

Wie LLMs trainiert werden

Das Training eines LLM wie GPT-5 oder Claude ist ein mehrstufiger Prozess, der Monate dauert und Millionen kostet:

1

Pre-Training

Wochen bis Monate

Daten: Billionen von Tokens (Internet, Bücher, Code)

Ziel: Sprachverständnis, Weltwissen, Muster lernen

Methode: Next-Token-Prediction auf massiven Datenmengen

2

Supervised Fine-Tuning (SFT)

Tage bis Wochen

Daten: Zehntausende hochwertige Beispiele

Ziel: Konversationsstil, Hilfsbereitschaft, Formatierung

Methode: Menschliche Trainer schreiben ideale Antworten

3

RLHF / DPO

Tage bis Wochen

Daten: Menschliche Bewertungen von Antworten

Ziel: Alignment mit menschlichen Präferenzen, Sicherheit

Methode: Reinforcement Learning oder Direct Preference Optimization

Die führenden LLMs im Dezember 2025

2025 markiert einen Wendepunkt: LLMs sind nicht mehr nur Textvorhersager, sondern Agenten, die planen, Werkzeuge nutzen und mehrstufige Aufgaben autonom ausführen können.

GPT-5.2

OpenAI
Dezember 2025Kontext: 400K Token (128K Output)
  • Adaptives Reasoning (2s für einfach, 10s+ für komplex)
  • Native Video-Verständnis
  • 50% weniger Token-Verbrauch bei gleicher Qualität
  • Zwei interne Modelle (Speed + Deep Reasoning)

Stärken: Allround, Multimedia, Reasoning, Vielseitigkeit

Claude Opus 4.5 / Sonnet 4.5

Anthropic
November 2025Kontext: 200K / 1M Token
  • 77,2% auf SWE-bench Verified (Coding-Weltrekord)
  • Sonnet 4.5 mit 1M Token Kontext
  • Agent-optimiert (Stabilität, Tool-Use, Erklärbarkeit)
  • Constitutional AI für Sicherheit

Stärken: Coding, technisches Schreiben, lange Dokumente, Agents

Gemini 3 Pro

Google
November 2025Kontext: 1M Token (2M angekündigt)
  • #1 auf LMArena Benchmark
  • Deep Think Modus für komplexe Probleme
  • Native Multimodalität (Text, Bild, Audio, Video)
  • Google Search + Code Execution integriert

Stärken: Kontext-Länge, Research, Google-Integration, Multimodal

DeepSeek V3.2

DeepSeek
2025Kontext: 128K Token
  • Sparse Attention: O(L²) → O(kL) Komplexität
  • R1 Reasoning-Modell mit 70% auf AIME
  • Open Source mit Apache 2.0 Lizenz
  • Extrem kosteneffizient

Stärken: Kosten-Effizienz, Reasoning, Open Source

Wichtige Begriffe erklärt

Token

Die kleinste Einheit, die ein LLM verarbeitet. Ein Wort kann 1-4 Token sein. 'Künstliche' = 3 Token (Künst, lich, e).

Kontext-Fenster

Wie viel Text das Modell gleichzeitig 'sehen' kann. GPT-5.2: 400K Token ≈ 300.000 Wörter ≈ 4 Bücher.

Parameter

Die 'Gewichte' im neuronalen Netz. GPT-4 hat ~1.8 Billionen Parameter. Mehr Parameter ≠ automatisch besser.

Inference

Der Prozess, wenn ein trainiertes Modell eine Antwort generiert. Kostet Rechenzeit und Geld pro Token.

Halluzination

Wenn ein LLM plausibel klingende, aber falsche Informationen generiert. Ein grundlegendes Problem aller LLMs.

Reasoning

Die Fähigkeit, logisch zu schlussfolgern. Neue Modelle haben 'Thinking Modes' für komplexe Probleme.

Die Evolution der LLMs

2017

Transformer-Architektur

'Attention Is All You Need' Paper von Google

2018

GPT-1 & BERT

Erste große Sprachmodelle zeigen Transfer Learning

2020

GPT-3

175B Parameter, Few-Shot Learning, API-Zugang

2022

ChatGPT

RLHF macht LLMs für alle nutzbar. Explosion der Nutzung

2023

GPT-4 & Claude 2

Multimodalität, längerer Kontext, bessere Zuverlässigkeit

2024

Reasoning-Modelle

o1, DeepSeek R1: LLMs lernen 'nachzudenken'

2025

Agent-Ära

LLMs führen mehrstufige Aufgaben autonom aus (Tools, Code, Actions)

Grenzen und Herausforderungen

Trotz aller Fortschritte haben LLMs fundamentale Limitationen:

Halluzinationen

LLMs generieren manchmal plausibel klingende, aber falsche Informationen. Das liegt in ihrer statistischen Natur begründet.

Kein echtes Verständnis

LLMs erkennen Muster, verstehen aber nicht wirklich. Sie haben kein Weltmodell und kein Bewusstsein.

Wissens-Cutoff

Das Wissen ist auf das Trainingsende begrenzt. Aktuelle Ereignisse erfordern Retrieval (RAG) oder Websuche.

Bias und Fairness

LLMs übernehmen Verzerrungen aus den Trainingsdaten. Trotz RLHF bleiben Bias-Probleme.

Häufig gestellte Fragen

ChatGPT ist ein LLM, das auf der Transformer-Architektur basiert. Es wurde auf Billionen von Texten trainiert, um das nächste Wort vorherzusagen. Durch RLHF (Reinforcement Learning from Human Feedback) wurde es darauf optimiert, hilfreich und sicher zu antworten. Wenn Sie eine Frage stellen, generiert es Token für Token eine Antwort basierend auf statistischen Mustern.
LLMs sind statistische Modelle, keine Datenbanken. Sie generieren plausibel klingende Fortsetzungen basierend auf Mustern, nicht auf Fakten. Wenn ein Muster 'passt', wird es generiert, auch wenn der Inhalt falsch ist. Das ist kein Bug, sondern liegt in der Funktionsweise. Abhilfe: Faktenprüfung, Retrieval-Augmented Generation (RAG), oder Modelle mit besserer Kalibrierung.
GPT-5.2 (OpenAI): Allrounder mit bestem Multimedia-Support und adaptivem Reasoning. Claude Opus/Sonnet 4.5 (Anthropic): Führend bei Coding (77,2% SWE-bench), fokussiert auf Sicherheit und lange Dokumente. Gemini 3 (Google): Größtes Kontext-Fenster (1M Token), tiefe Google-Integration, stark bei Research. Keines ist 'das Beste', sie haben unterschiedliche Stärken.
100K Token ≈ 75.000 Wörter ≈ 1 langes Buch. Das Kontext-Fenster ist der Text, den das Modell gleichzeitig 'sehen' kann: Ihre Frage + bisherige Konversation + Systemanweisungen. Gemini 3 Pro hat 1M Token (≈ 10 Bücher). Wichtig: Längerer Kontext ≠ besseres Verständnis. Die Qualität variiert je nach Position im Kontext.
LLMs zeigen beeindruckende Fähigkeiten, aber keine allgemeine Intelligenz (AGI). Sie erkennen Muster und generieren plausible Fortsetzungen. Sie verstehen nicht wirklich, haben kein Bewusstsein und können nicht außerhalb ihres Trainings generalisieren. Die neue Generation (GPT-5, o1) zeigt besseres Reasoning, aber fundamentale Grenzen bleiben.
Enorm. GPT-4 Training kostete geschätzt $100+ Millionen (Compute, Daten, Personal). Kleinere Modelle (7B-70B Parameter) können für $100K-$1M trainiert werden. Inference (Nutzung) kostet $1-15 pro Million Input-Token je nach Modell. Für normale Nutzer: API-Kosten von wenigen Cent bis Dollar pro Konversation.