Veo 3 generiert als erste Video-KI natives Audio - sowohl Sprache und Gesang, als auch Musik und Soundeffekte wie Geräusche und auch Tierlaute - alles passend zum entsprechenden Video. Dabei wird zum per Prompt vorgegebenen Text nicht nur der Dialog erzeugt, er wird von den Charakteren mit passender Stimme samt Mundbewegungen und der entsprechenden Mimik auch gesprochen.

Mussten bisher für solche Szenen - relativ umständlich - mehrere KI-Tools eingesetzt werden, passiert das jetzt per Veo 3 mit nur einem Prompt. Bereits im letzten Sommer hatte Google Deepmind einen Preview auf die kommenden Audiofähigkeiten gegeben. Seitdem hat sich einiges getan - hier einige Beispiele:
Before you ask: yes, everything is AI here. The video and sound both coming from a single text prompt using #Veo3 by @GoogleDeepMind .Whoever is cooking the model, let him cook! Congrats @Totemko and the team for the Google I/O live stream and the new Veo site! pic.twitter.com/sxZuvFU49s
— László Gaál (@laszlogaal_) May 21, 2025
Veo 3 ist momentan noch ein Preview, wird also laufend weiterentwickelt - die Fähigkeiten und Qualität sind jedoch schon jetzt beeindruckend. Das Modell erzeugt als erste Video-KI Clips in 4K mit einer Länge von maximal 8 Sekunden. Generiert werden allerdings nur erwachsene Menschen - Kinder benötigen eine besondere Erlaubnis.
Hier einige der beeindruckenden Beispiele von Veo 3s Fähigkeiten bezüglich Gesang und Musik:
sowie Stimmen:
#Veo3 further blurs the lines between reality and imagination with audio, stronger text adherence, and richer visual details. pic.twitter.com/Tv5H9Uwzh3
— MBZ (@babaeizadeh) May 20, 2025
Und auch Sitcoms sind kein Problem für Veo 3:
8) 90&s sitcom:pic.twitter.com/cADF7pVyqN
— Mark Gadala-Maria (@markgadala) May 22, 2025
Auch menschliche Bewegungen wie gehen oder tanzen sehen sehr gut aus. Bei Dialogen scheinen sogar sonst oft kritische Dinge wie Blickrichtung, Augenkontakt und die zeitlich und emotional passende Reaktion im Dialog sehr realistisch zu gelingen.
// Top-News auf einen Blick:
- YouTuber verliert Prozess - Bruce Willis Synchronstimme darf nicht geklont werden
- Preview auf objektbasierte Maskentools in der Premiere Pro Beta
- Blackmagic DaVinci Resolve Studio ab sofort auch mit monatlicher Lizenz
- Neu und kostenlos - Adobe Premiere für iPhone
- Canon teasert neue, kompakte Kamera - Cine-Modell zur IBC?
- Revolutionärer AF für Cine-Objektive: Tilta Autofokus-Adapter zapft interne Kamera-...
Abgesehen von der neuen Integration von Sound ist auch die Qualität von Veo 3 gegenüber dem Vorgängermodell (das ohnehin schon besser als die Konkurrenz wie OpenAIs Sora, Hailuo oder Kling war) optimiert. Veo 3 zeigt ein nochmals deutlich verbessertes Verständnis von Physik, Beleuchtung, Schatten und Objektinteraktionen, was die Videos noch realistischer aussehen läßt. Auch das Promptverständnis wurde optimiert, sodass sich Veo 3 genauer an die Anweisungen des Users halten kann. Allerdings ist auch Veo 3 nicht perfekt - es gibt immer noch gelegentlich Artefakte oder (Audio-)Fehler.
Veo 3 kann über Googles neues KI-Video-Tool Flow, das Kreativen zahlreiche Kontrollmöglichkeiten gewährt, oder über die Google Gemini App genutzt werden. Für jedes Prompt werden 1-4 verschiedene Versionen erstellt, unter denen der User auswählen kann.
Jedoch scheinen die besonderes auf Filmemacher zugeschnittenen Features von Flow wie die Steuerung der Kamerabewegungen, Stilanpassung mithilfe von Referenzbildern, Vorgabe des ersten und/oder letzten Frames einer Szene, Verlängerung des Videos momentan nur für Veo 2 verfügbar zu sein.
Veo 3 vorerst nur in den USA - zum Preis von 250 Dollar
Veo 3 wird vorerst nur im Rahmen von Googles AI Ultra-Abo zugänglich, das rund stolze 250 Dollar pro Monat kostet. Das Abo (und somit Veo 3) ist momentan auch nur innerhalb der USA zugänglich - mehr Länder sollen bald dazukommen. Aktuell gibt es für Neuabonnenten 50% Rabatt auf die ersten 3 Monate.
Neben der Nutzung von Flow und Veo 3 enthält das Abo auch eine Reihe weiterer Funktionen bzw. hohe Nutzunggrenzen von Gemini, NotebookLM, der Image-to-Video KI Whisk (allerdings nur mit Veo 2), YouTube Premium sowie - für Filmemacher sicherlich interessant - satte 30 TB Speicherkapazität für Google Drive, Photos und Gmail.
Das Google AI Pro Abo für rund 20 Dollar (erster Monat kostenlos für neue User) enthält ebenfalls die Nutzung von Flow, aber nur mit dem Veo 2 Modell.
Einem Userbericht nach soll Veo 3 auch schon innerhalb von Adobes Video-KI Firefly verfügbar sein, welche schon Veo 2 per API unterstützt.
Einfacher denn je: realistische Kurzfilme per Video-KI
Mit Hilfe von Veo 3 kann man jetzt also sehr einfach ziemlich echt aussehende Clips von redenden Menschen per KI generieren. Und aus den einzelnen, bis zu 8-sekündigen Clips, dank Charakter-und Stimmkonsistenz und Dialogfähigkeit, auch gleich ganz Kurzfilme. Hier einige User-generierte Beispielclips:
Presenting: The Bridge. An AI Short Film utilizing Veo-2.
— Theoretically Media (@TheoMediaAI) March 24, 2025
I’m really proud of this one, as my goal (as always) is to push storytelling, performance, and narrative in this emerging art form.
Every shot here utilized Veo-2, although there were a few post-generation tricks here… pic.twitter.com/sSWVIA3in2
Created with Google Flow.
— Dave Clark (@Diesol) May 21, 2025
Visuals, Sound Design, and Voice were prompted using Veo 3 text-to-video.
Welcome to a new era of filmmaking. pic.twitter.com/E3NSA1WsXe
Die Beispiele demonstrieren schön, welche Revolution Google mit Veo 3 auslöst: echtes KI-Filmmaking nur per Prompt, ohne die Kenntnis mehrerer Tools rückt in erreichbare Nähe - das nötige Kapital vorausgesetzt.