Wenn Sie einen Prompt wie "Ein Astronaut reitet auf einem Pferd auf dem Mars" eingeben und Sekunden später ein fotorealistisches Bild erhalten, wirkt das wie Magie. Aber dahinter steckt eine elegante Technologie: Latent Diffusion Models. (Noch neu bei KI? Starten Sie mit unserem KI-Grundlagen-Guide.)
Dieser Guide erklärt, wie Midjourney, DALL-E und Stable Diffusion tatsächlich funktionieren. Kein Informatik-Studium nötig, aber wir gehen tiefer als "KI macht Bilder aus Text".
Die Kernidee: Rauschen rückgängig machen
Stellen Sie sich vor, Sie hätten ein Foto und würden immer mehr Rauschen hinzufügen, bis nur noch statisches Rauschen übrig ist. Ein Diffusion Model lernt, diesen Prozess umzukehren: Es nimmt Rauschen und entfernt es schrittweise, bis ein Bild entsteht.
Der Diffusion-Prozess
Rauschen hinzufügen (Forward)
Beim Training wird schrittweise Gaußsches Rauschen zu Bildern hinzugefügt, bis nur noch Rauschen übrig ist.
Rauschen vorhersagen (Training)
Das U-Net lernt, das hinzugefügte Rauschen vorherzusagen. Es bekommt verrauschte Bilder und muss das Rauschen identifizieren.
Schrittweise entrauschen (Inference)
Bei der Generierung startet man mit purem Rauschen. Das U-Net entfernt Schritt für Schritt Rauschen, gesteuert vom Text-Prompt.
Warum "Latent" Space?
Ein 512×512 Bild hat 786.432 Werte (512 × 512 × 3 Farbkanäle). Das direkt zu verarbeiten wäre extrem langsam. Deshalb arbeiten moderne Modelle im Latent Space: einem komprimierten Repräsentationsraum.
Massive Speedup
512×512 Pixel = 786.432 Dimensionen. Latent Space: 64×64×4 = 16.384 Dimensionen. 48× weniger Rechenaufwand!
Semantische Kompression
Der Latent Space erfasst die 'Bedeutung' eines Bildes, nicht jeden Pixel. Ähnliche Bilder liegen nahe beieinander.
Bessere Qualität
Die VAE filtert unwichtige Details heraus. Das U-Net kann sich auf wichtige visuelle Konzepte konzentrieren.
Die Komponenten eines Diffusion Models
VAE (Variational Autoencoder)
Encoder & DecoderKomprimiert Bilder in den Latent Space (Encoder) und rekonstruiert sie zurück (Decoder). Reduziert 512×512×3 auf 64×64×4.
U-Net
Denoising NetworkDas Herzstück: Lernt, Rauschen aus Bildern zu entfernen. Wird Schritt für Schritt angewendet, um aus Rauschen ein Bild zu formen.
Text Encoder (CLIP)
Prompt-VerständnisWandelt Ihren Text-Prompt in Vektoren um, die das U-Net steuern. CLIP wurde auf 400M Bild-Text-Paaren trainiert.
Scheduler
Denoising-SteuerungBestimmt, wie viel Rauschen in jedem Schritt entfernt wird. Verschiedene Scheduler (DDIM, Euler, DPM++) für verschiedene Zwecke.
Wie der Text das Bild steuert
Der Text-Prompt ist nicht nur ein Filter, sondern steuert aktiv den Denoising-Prozess. Hier ist, wie das funktioniert:
Tokenisierung
Ihr Prompt wird in Token zerlegt (Wörter oder Teilwörter).
CLIP Encoding
Jeder Token wird in einen 768-dimensionalen Vektor umgewandelt.
Cross-Attention
Im U-Net 'schaut' jede Bildregion auf alle Text-Token und entscheidet, welche relevant sind.
Guidance Scale
Verstärkt den Einfluss des Prompts. Höher = prompttreuer, aber weniger vielfältig.
Cross-Attention: Das Herzstück
Im U-Net gibt es Cross-Attention-Layer. Hier "fragt" jede Region des Bildes: "Welche Teile des Prompts sind für mich relevant?" Wenn der Prompt "roter Ball" enthält, lernen bestimmte Bildregionen, auf "rot" und "Ball" zu achten und entsprechend zu entrauschen.
Die Evolution der Bildgeneratoren
DALL-E
Erste überzeugende Text-to-Image KI (OpenAI, basierte auf VQVAE)
Stable Diffusion
Open Source, Latent Diffusion, läuft auf Consumer-GPUs
Midjourney v3
Künstlerische Qualität, eigener Stil, Discord-basiert
SDXL
1024×1024 native, zwei U-Nets, deutlich bessere Qualität
DALL-E 3
Massiv verbessertes Prompt-Verständnis, ChatGPT-Integration
Stable Diffusion 3
MMDiT-Architektur, drei 'Tracks' für Text und Bild
FLUX
Transformer-basiert, konkurriert mit geschlossenen Modellen
Midjourney v7
Web-Interface, verbesserte Konsistenz, Kamera-Kontrolle
2024-2025: Die Transformer-Revolution
Die neueste Generation (Stable Diffusion 3, FLUX) ersetzt Teile des U-Net durch Transformer-Architekturen. Diese "Multimodal Diffusion Transformers" (MMDiT) verarbeiten Text und Bild in gemeinsamen Schichten, was zu besserem Prompt-Verständnis führt.
Was das für die Praxis bedeutet
Prompt-Reihenfolge matters
Frühe Wörter im Prompt haben oft mehr Einfluss, weil CLIP sie stärker gewichtet. Wichtige Konzepte nach vorne!
Mehr Steps ≠ immer besser
20-30 Steps reichen oft. Mehr Steps können Details hinzufügen, aber auch "überkochen" und Artefakte erzeugen.
Seed = Reproduzierbarkeit
Das initiale Rauschen wird durch einen Seed bestimmt. Gleicher Seed + gleicher Prompt = gleiches Bild.
CFG Scale = Prompt-Treue
Classifier-Free Guidance verstärkt den Prompt-Einfluss. 7-12 ist typisch. Höher = prompttreuer, aber steifer.