Zum Hauptinhalt springen

GENERATIVE KI

Wie funktioniert KI-Bildgenerierung?

Die Technologie hinter Midjourney, DALL-E und Stable Diffusion: Diffusion Models, Latent Space und wie aus Text Bilder entstehen.

Technische Erklärung · Diffusion Models · 2025

Wenn Sie einen Prompt wie "Ein Astronaut reitet auf einem Pferd auf dem Mars" eingeben und Sekunden später ein fotorealistisches Bild erhalten, wirkt das wie Magie. Aber dahinter steckt eine elegante Technologie: Latent Diffusion Models. (Noch neu bei KI? Starten Sie mit unserem KI-Grundlagen-Guide.)

Dieser Guide erklärt, wie Midjourney, DALL-E und Stable Diffusion tatsächlich funktionieren. Kein Informatik-Studium nötig, aber wir gehen tiefer als "KI macht Bilder aus Text".

Die Kernidee: Rauschen rückgängig machen

Stellen Sie sich vor, Sie hätten ein Foto und würden immer mehr Rauschen hinzufügen, bis nur noch statisches Rauschen übrig ist. Ein Diffusion Model lernt, diesen Prozess umzukehren: Es nimmt Rauschen und entfernt es schrittweise, bis ein Bild entsteht.

Der Diffusion-Prozess

1

Rauschen hinzufügen (Forward)

Beim Training wird schrittweise Gaußsches Rauschen zu Bildern hinzugefügt, bis nur noch Rauschen übrig ist.

Bild → Verrauscht → Mehr Rauschen → Pures Rauschen
2

Rauschen vorhersagen (Training)

Das U-Net lernt, das hinzugefügte Rauschen vorherzusagen. Es bekommt verrauschte Bilder und muss das Rauschen identifizieren.

Verrauschtes Bild → U-Net → Vorhergesagtes Rauschen
3

Schrittweise entrauschen (Inference)

Bei der Generierung startet man mit purem Rauschen. Das U-Net entfernt Schritt für Schritt Rauschen, gesteuert vom Text-Prompt.

Rauschen → Weniger Rauschen → Struktur → Bild

Warum "Latent" Space?

Ein 512×512 Bild hat 786.432 Werte (512 × 512 × 3 Farbkanäle). Das direkt zu verarbeiten wäre extrem langsam. Deshalb arbeiten moderne Modelle im Latent Space: einem komprimierten Repräsentationsraum.

Massive Speedup

512×512 Pixel = 786.432 Dimensionen. Latent Space: 64×64×4 = 16.384 Dimensionen. 48× weniger Rechenaufwand!

Semantische Kompression

Der Latent Space erfasst die 'Bedeutung' eines Bildes, nicht jeden Pixel. Ähnliche Bilder liegen nahe beieinander.

Bessere Qualität

Die VAE filtert unwichtige Details heraus. Das U-Net kann sich auf wichtige visuelle Konzepte konzentrieren.

Die Komponenten eines Diffusion Models

VAE (Variational Autoencoder)

Encoder & Decoder

Komprimiert Bilder in den Latent Space (Encoder) und rekonstruiert sie zurück (Decoder). Reduziert 512×512×3 auf 64×64×4.

U-Net

Denoising Network

Das Herzstück: Lernt, Rauschen aus Bildern zu entfernen. Wird Schritt für Schritt angewendet, um aus Rauschen ein Bild zu formen.

Text Encoder (CLIP)

Prompt-Verständnis

Wandelt Ihren Text-Prompt in Vektoren um, die das U-Net steuern. CLIP wurde auf 400M Bild-Text-Paaren trainiert.

Scheduler

Denoising-Steuerung

Bestimmt, wie viel Rauschen in jedem Schritt entfernt wird. Verschiedene Scheduler (DDIM, Euler, DPM++) für verschiedene Zwecke.

Wie der Text das Bild steuert

Der Text-Prompt ist nicht nur ein Filter, sondern steuert aktiv den Denoising-Prozess. Hier ist, wie das funktioniert:

1

Tokenisierung

Ihr Prompt wird in Token zerlegt (Wörter oder Teilwörter).

2

CLIP Encoding

Jeder Token wird in einen 768-dimensionalen Vektor umgewandelt.

3

Cross-Attention

Im U-Net 'schaut' jede Bildregion auf alle Text-Token und entscheidet, welche relevant sind.

4

Guidance Scale

Verstärkt den Einfluss des Prompts. Höher = prompttreuer, aber weniger vielfältig.

Cross-Attention: Das Herzstück

Im U-Net gibt es Cross-Attention-Layer. Hier "fragt" jede Region des Bildes: "Welche Teile des Prompts sind für mich relevant?" Wenn der Prompt "roter Ball" enthält, lernen bestimmte Bildregionen, auf "rot" und "Ball" zu achten und entsprechend zu entrauschen.

Die Evolution der Bildgeneratoren

2021

DALL-E

Erste überzeugende Text-to-Image KI (OpenAI, basierte auf VQVAE)

2022

Stable Diffusion

Open Source, Latent Diffusion, läuft auf Consumer-GPUs

2022

Midjourney v3

Künstlerische Qualität, eigener Stil, Discord-basiert

2023

SDXL

1024×1024 native, zwei U-Nets, deutlich bessere Qualität

2023

DALL-E 3

Massiv verbessertes Prompt-Verständnis, ChatGPT-Integration

2024

Stable Diffusion 3

MMDiT-Architektur, drei 'Tracks' für Text und Bild

2024

FLUX

Transformer-basiert, konkurriert mit geschlossenen Modellen

2025

Midjourney v7

Web-Interface, verbesserte Konsistenz, Kamera-Kontrolle

2024-2025: Die Transformer-Revolution

Die neueste Generation (Stable Diffusion 3, FLUX) ersetzt Teile des U-Net durch Transformer-Architekturen. Diese "Multimodal Diffusion Transformers" (MMDiT) verarbeiten Text und Bild in gemeinsamen Schichten, was zu besserem Prompt-Verständnis führt.

Was das für die Praxis bedeutet

Prompt-Reihenfolge matters

Frühe Wörter im Prompt haben oft mehr Einfluss, weil CLIP sie stärker gewichtet. Wichtige Konzepte nach vorne!

Mehr Steps ≠ immer besser

20-30 Steps reichen oft. Mehr Steps können Details hinzufügen, aber auch "überkochen" und Artefakte erzeugen.

Seed = Reproduzierbarkeit

Das initiale Rauschen wird durch einen Seed bestimmt. Gleicher Seed + gleicher Prompt = gleiches Bild.

CFG Scale = Prompt-Treue

Classifier-Free Guidance verstärkt den Prompt-Einfluss. 7-12 ist typisch. Höher = prompttreuer, aber steifer.

Häufig gestellte Fragen

Der Name kommt aus der Physik: Diffusion beschreibt, wie Partikel sich von konzentrierten Bereichen in alle Richtungen verteilen (wie Tinte in Wasser). Bei Diffusion Models wird 'Information' (das Bild) schrittweise zu Rauschen 'diffundiert'. Der Rückweg (Denoising) erzeugt dann neue Bilder.
Stable Diffusion ist Open Source, läuft lokal, ist hochgradig anpassbar (LoRAs, Fine-Tuning). DALL-E 3 ist closed-source, läuft in der Cloud, hat besseres Prompt-Verständnis und Text-Rendering. Technisch nutzen beide Diffusion, aber mit unterschiedlichen Architekturen und Training.
Mehrere Gründe: CLIP-Limitation: Der Text-Encoder versteht komplexe Beziehungen schlecht ('ein roter Würfel links von einem blauen Kreis'). Training Bias: Das Modell bevorzugt häufige Kombinationen. Token-Limit: Sehr lange Prompts werden abgeschnitten. Negativ-Prompts und Controlnet können helfen.
Standard-Diffusion-Modelle lernen Text als 'Textur', nicht als lesbaren Text. Ideogram und DALL-E 3 wurden speziell darauf trainiert, mit Datasets, die Text-Bilder enthalten. Sie nutzen auch größere Text-Encoder und spezielle Architektur-Anpassungen. Stable Diffusion ohne Fine-Tuning ist bei Text schwach.
Minimum: NVIDIA GPU mit 8GB VRAM (RTX 3060, 4060). Empfohlen: 12GB+ VRAM (RTX 4070, 4080, 4090). AMD und Mac werden unterstützt, aber NVIDIA ist am schnellsten. Software: ComfyUI oder Automatic1111 WebUI. Modelle: SDXL, FLUX, oder spezialisierte Fine-Tunes.
Aus den Trainingsdaten. Stable Diffusion wurde auf LAION-5B trainiert (5 Milliarden Bild-Text-Paare aus dem Internet). Das Modell hat statistische Muster gelernt: 'Wenn der Text Sonnenuntergang sagt, sehen die Pixel typischerweise so aus.' Es versteht nicht wirklich, sondern reproduziert und kombiniert gelernte Muster.