Video-KI im Vergleich: Sora, Runway, Veo und Kling im Test

Im Dezember 2025 gab Disney bekannt, eine Milliarde Dollar in OpenAI zu investieren und über 200 seiner Charaktere, von Darth Vader bis zu den Pixar-Figuren, für Sora 2 freizugeben. Am 1. Dezember hatte Runway Gen-4.5 veröffentlicht und mit einem Elo-Score von 1.247 die Spitze der Video Arena Benchmark übernommen, noch vor Googles Veo 3 und OpenAIs Sora 2 Pro. Google hatte Veo 3.1 in seine Workspace-Produkte integriert, und Kuaishou aus China brachte mit Kling O1 und Kling 2.6 zwei weitere Durchbrüche. Die Text-zu-Video-Revolution ist nicht mehr Zukunftsmusik, sie ist Gegenwart.
Aber welches Tool ist das richtige? Die Antwort hängt davon ab, was man vorhat. Ich habe die vier führenden Plattformen verglichen und zeige, wo jede glänzt und wo sie schwächelt.
Sora 2: Der Hollywood-Anwärter
OpenAIs Sora 2, veröffentlicht am 30. September 2025, ist das ambitionierteste System im Vergleich. Das Modell generiert nicht nur Video, sondern auch synchronisierten Ton, Dialoge, Soundeffekte und Hintergrundgeräusche in einem Durchgang. OpenAI selbst nennt dies den »GPT-3.5-Moment für Video«, ein Hinweis darauf, dass man das Produkt noch nicht für ausgereift hält, aber als Wendepunkt betrachtet.
Die technischen Fortschritte sind bemerkenswert. Frühere Modelle neigten dazu, die Physik zu ignorieren: Ein Basketball würde sich ins Netz teleportieren, anstatt vom Brett abzuprallen. Sora 2 respektiert Schwerkraft, Trägheit und Kollisionen deutlich besser. Das Modell kann jetzt auch »scheitern«: Wenn der Spieler danebenwirft, zeigt das Video einen Fehlwurf, statt die Realität zu biegen.
Die neuen Features sind beeindruckend: Storyboards erlauben die sekundengenaue Planung von Szenen. Character Cameos lassen Nutzer eigene Charaktere erstellen und in verschiedenen Videos wiederverwenden. Pro-Nutzer können Videos von bis zu 25 Sekunden generieren. Mit der Disney-Partnerschaft werden ab 2026 offizielle Charaktere verfügbar sein.
Der Haken: Sora 2 ist exklusiv für ChatGPT-Pro-Nutzer verfügbar, das sind 200 Dollar monatlich. Für Unternehmen gibt es eine Azure-Integration, aber auch das ist nicht günstig.
Google Veo 3.1: Der Allrounder
Googles Veo 3 war im Mai 2025 das erste große Modell mit nativem Audio. Veo 3.1, veröffentlicht im Oktober, verfeinert das Konzept: bessere Lippensynchronisation, konsistentere Charaktere über mehrere Szenen, verbesserte Bild-zu-Video-Generierung.
Die Integration in Googles Ökosystem ist der größte Vorteil. Veo 3.1 ist über die Gemini API zugänglich, läuft in Google AI Studio und Vertex AI, und seit Dezember 2025 auch in Google Vids, dem kollaborativen Videoprogramm für Workspace-Nutzer. Die neuen KI-Avatare in Google Vids werden laut Google fünfmal häufiger bevorzugt als die der Konkurrenz.
Technisch unterstützt Veo 3.1 720p und 1080p bei 24 FPS, mit Clips von 4, 6 oder 8 Sekunden. Die »Scene Extension«-Funktion ermöglicht es, Videos durch Aneinanderreihen auf über eine Minute zu verlängern. Das SynthID-Wasserzeichen markiert alle generierten Inhalte als KI-erzeugt, ein Pluspunkt für Transparenz.
Die Einschränkung: Veo ist primär ein Entwicklerprodukt. Es gibt keine eigenständige Konsumenten-App wie bei Sora. Wer Veo nutzen will, braucht entweder ein Google-Workspace-Abo oder technisches Know-how für die API.
Runway Gen-4.5: Der Profiwerkzeug
Runway hat sich als Plattform für Kreativprofis etabliert. Gen-4, veröffentlicht im März 2025, löste erstmals das »Charakterkonsistenz-Problem«: Figuren behalten ihr Aussehen über mehrere Szenen bei, was Kurzfilme und zusammenhängende Erzählungen ermöglicht. Gen-4.5 vom 1. Dezember 2025 führt mit einem Elo-Score von 1.247 die Video Arena Benchmark an und übertrifft damit Google Veo 3 und OpenAI Sora 2. »Wir haben Billionen-Dollar-Unternehmen mit einem Team von 100 Leuten geschlagen«, sagte CEO Cristóbal Valenzuela.
Die Zusammenarbeit mit Nvidia zeigt sich in der Technik: Gen-4.5 nutzt »Autoregressive-to-Diffusion«-Verfahren (A2D), die realistischere Bewegungen erzeugen. Objekte haben Gewicht und Trägheit, Flüssigkeiten verhalten sich wie Flüssigkeiten, Stoff fällt wie Stoff. Die »floatigen« Artefakte früherer Modelle sind deutlich reduziert.
Runway bietet auch das umfassendste Werkzeugset: Motion Brush für gezielte Bewegungssteuerung, Director Mode für Kameraführung, eine integrierte Videoschnitt-Umgebung. Wer nicht nur generieren, sondern auch bearbeiten will, findet hier alles in einer Plattform.
Im Dezember 2025 kündigte Adobe eine mehrjährige strategische Partnerschaft mit Runway an: Gen-4.5 ist jetzt direkt in Adobe Firefly verfügbar. Gen-4.5 unterstützt außerdem native Audio-Generierung und Audio-Bearbeitung sowie Multi-Shot-Editing. Der Preis: Runway ist nicht günstig. Für gelegentliche Nutzung ist es überdimensioniert.
Kling: Der Preis-Leistungs-Champion
Kling von Kuaishou ist der Überraschungssieger des Jahres. Das chinesische Unternehmen hat innerhalb von zehn Monaten einen annualisierten Umsatz von über 100 Millionen Dollar erreicht, ein Tempo, das selbst im KI-Markt bemerkenswert ist.
Am 1. Dezember 2025 veröffentlichte Kuaishou Kling O1, das erste »unified multimodal«-Modell, das Text, Video, Bild und Subjekt-Inputs in einer Engine vereint. Es löst das Konsistenz-Problem: Nutzer können Prompts wie »entferne Passanten«, »wechsle von Tag zu Dämmerung« oder »tausche das Outfit des Protagonisten« eingeben, und Kling O1 rekonstruiert die Szene pixelgenau. Videos lassen sich jetzt zwischen 3 und 10 Sekunden lang generieren. Am 3. Dezember folgte Kling 2.6 mit »simultaner Audio-Video-Generierung«: Bild, Sprache, Soundeffekte und Atmosphäre entstehen in einem Durchgang.
Die technischen Stärken von Kling liegen bei komplexen Bewegungen: Tanz, Kampfkunst, schnelle Aktionen gelingen besser als bei manchen Konkurrenten. Hand- und Fingerbewegungen, traditionell eine Schwäche von KI-Video, werden präzise dargestellt. Die Lippensynchronisation gilt als eine der besten im Markt.
Die Einschränkung: Kling ist ein chinesisches Produkt. Für manche Nutzer und Unternehmen sind Datenschutzbedenken ein Thema. Die Benutzeroberfläche ist funktional, aber weniger poliert als bei Runway oder Sora.
Midjourney Video: Der Newcomer
Midjourney, bekannt für seine Bildgenerierung, stieg im Juni 2025 mit V1 in den Videomarkt ein. Das Modell ist bescheidener als die Konkurrenz: Es animiert bestehende Bilder zu 5-Sekunden-Clips, verlängerbar auf bis zu 21 Sekunden. Kein natives Audio, keine Text-zu-Video-Generierung ohne Ausgangsbild.
Der Vorteil: Midjourney hat 20 Millionen Nutzer und eine eingespielte Community. Wer bereits Midjourney für Bilder nutzt, kann diese nahtlos animieren. Die Kosten sind moderat, ab 10 Dollar monatlich, Pro-Nutzer haben unbegrenzte Generierungen im »Relax«-Modus.
Midjourney sieht V1 als Anfang. Die langfristige Vision sind »Echtzeit-Open-World-Simulationen«, also KI-Systeme, die interaktive 3D-Welten in Echtzeit generieren. Bis dahin ist V1 ein solides Werkzeug für einfache Animationen, aber kein Konkurrent für komplexe Videoproduktionen.
Fazit: Welches Tool für welchen Zweck?
Die Wahl hängt vom Anwendungsfall ab:
- Für narrative Kurzfilme und Storytelling: Sora 2, wenn das Budget stimmt, sonst Runway Gen-4.5
- Für Unternehmens-Integration und Workflows: Veo 3.1 über Google Workspace oder Vertex AI
- Für professionelle Videoproduktion: Runway Gen-4.5 mit seinem umfassenden Toolset
- Für Preis-Leistung und schnelle Ergebnisse: Kling, besonders für Bewegungsszenen
- Für einfache Bild-Animationen: Midjourney V1, wenn man bereits im Ökosystem ist
Der Markt entwickelt sich rasant. Die OSWorld-Benchmarks zeigen, dass alle großen Modelle in den letzten Monaten deutlich besser geworden sind. Was heute State of the Art ist, wird in sechs Monaten Mittelmaß sein. Wer jetzt einsteigt, sollte flexibel bleiben und nicht zu viel in ein einzelnes Ökosystem investieren.