Schon lange erwartet, nun ist es endlich so weit – Midjourney, Anbieter einer der populärsten und besten Bild-KIs, hat sein erstes (V1) Video-KI-Modell veröffentlicht. Es soll sich durch einen niedrigen Preis und seine sofortige Verfügbarkeit für alle Midjourney-Abonnenten im umkämpften Markt der Video-KIs Anteile erobern und stellt einen ersten Schritt zu noch größeren Zielen dar. Midjourney bietet sogar die Generierung von unbegrenzt vielen Videos an, zu einem Preis von 60 Dollar pro Monat.

Preis nur vorläufig
Zum Start ist das Video-Modell V1 zunächst nur über das Web-Interface nutzbar, nicht per Discord. Die Generierung eines Videos kostet in etwa das Achtfache eines Bildes und liefert jeweils vier Videos zu je fünf Sekunden. Das ist laut Midjourney um ein Vielfaches günstiger als vergleichbare Angebote auf dem Markt.
Introducing our V1 Video Model. It&s fun, easy, and beautiful. Available at 10$/month, it&s the first video model for *everyone* and it&s available now. pic.twitter.com/iBm0KAN8uy
— Midjourney (@midjourney) June 18, 2025
Die aktuell billigste Möglichkeit, Midjourney Video V1 auszuprobieren, stellt das Basic-Abo-Abonnement von Midjourney zum Preis von (aktuell reduziert) 8 Dollar pro Monat dar, welches für die Generierung von rund 25 Videoclips ausreichen sollte. Abonnenten von Midjourneys 60 Dollar pro Monat teurem Pro-Plan und dem 120 Dollar Mega-Plan können sogar unbegrenzt viele Videos im (von der Bild-Generierung bekannten) langsameren "Relax"-Modus erstellen.
Midjourney now does video, and, like Midjourney itself, its advantage is that it has features that allow you to create styles that are hard achieve with other video creation tools & feel less like standard video pastiche
— Ethan Mollick (@emollick) June 19, 2025
Here are a bunch of five second clips I made, for example. pic.twitter.com/AObNX84dGI
Laut Midjourney sind die tatsächlichen Betriebskosten für das neue Videomodell und demzufolge die Preisgestaltung allerdings schwer abschätzbar. Deswegen will Midjourney im nächsten Monat beobachten, wie das neue Modell genutzt wird und dann – falls nötig, weil die Serverkapazitäten knapp werden – die Preise entsprechend anpassen.
// Top-News auf einen Blick:
- WhoFi - Neue KI kann Personen nur per WLAN-Signal identifizieren
- Aputure STORM 400x: Wetterfeste 400W LED mit ProLock Bowens-Mount
- Bekommt DJI bald neue Drohnen-Konkurrenz?
- RØDE verschenkt neuen Wireless Micro Kameraempfänger als Upgrade
- Seagates 30 TB HAMR-Festplatten ab sofort im Handel frei erhätlich
Als Image-to-Video-Modell startet die Generierung eines Clips mit einem – per Midjourney oder aus einer anderen Quelle – Bild. Dieses kann dann entweder automatisch animiert werden (das Text-Prompt für die Bewegung wird dann per KI erzeugt) oder – für mehr Kontrolle – manuell mittels eines eigenen Text-Prompts, das genau beschreibt, was wie animiert werden soll.
Begrenzte Optionen
Der Grad der Bewegung kann mittels der zwei Optionen "high motion" für Szenen, in denen sowohl die Kamera als auch das Motiv bewegt werden soll, bzw. "low motion" für ruhige Szenen, in denen die Kamera sich kaum und das Motiv sich nur langsam bewegt, bestimmt werden. Ersteres hat eine höhere Bildfehleranfälligkeit, letzteres resultiert manchmal in keinerlei Bewegung. Ein generiertes Video kann bis zu vier Mal um jeweils 4 Sekunden erweitert werden, d. h. ein Video kann insgesamt bis zu 21 Sekunden lang werden. Allerdings fehlen – typisch für die erste Generation einer Video-KI – noch Möglichkeiten zur exakteren Steuerung der Kamerabewegung, Charakterkonsistenz oder zum Editieren von Clips.
Angesichts der großen Konkurrenz anderer Video-KIs wie Googles Veo 3, OpenAIs Sora, Runways Gen 4, Pika, Adobes Firefly und der chinesischen Modelle scheint Midjourney durch einen niedrigen Preis sowie – wie schon bei seiner Bild-KI – durch einen ganz besonders künstlerischen Look punkten zu wollen, nicht durch Realismus.

Zukunftsmusik: eine offene Welt in Echtzeit
Das eigentliche Ziel von Midjourney ist aber noch viel höher gesteckt, nämlich ein KI-Modell, das in der Lage ist, eine offene Welt in Echtzeit zu simulieren, also eine dynamische 3D-Umgebung, mit welcher man inklusive der darin enthaltenen Objekte live interagieren kann. Auf dem Weg dahin ist ein Video-Modell (bewegte Bilder) der zweite Schritt nach einem Modell, das Bilder einer beliebigen Welt generiert. Die nächsten Entwicklungsstufen sind ein 3D-Modell, das es erlaubt, sich durch die erschaffene Welt beliebig zu bewegen, sowie letztendlich ein Modell, das dies in Echtzeit ermöglicht. Diese Schritte sollen im nächsten Jahr verwirklicht werden – anfänglich wird die Nutzung recht teuer sein, soll dann aber erschwinglich werden.