Erst vor knapp zwei Wochen hatte Google eine Preview Version seiner Text-to-Video KI Veo vorgestellt, jetzt ist schon die Version 2 von Veo da. Google DeepMind Veo 2 kann Clips in einer Auflösung von bis zu 4K (4.096 x 2.160 )generieren, welche auf eine Länge von mehreren Minuten ausgedehnt werden können (die 4K-Democlips auf YouTube aktuell sind allerdings nur maximal 8 Sekunden lang).

Während in den Democlips der ersten Version auffällig wenig Personen zu sehen waren, scheint Veo 2 durchaus in der Lage zu sein, relativ realistische Menschendarstellungen zu errechnen. Auch wenn die "Sora Signature-Sequenz" einer nachtwandelnden Dame in Tokyo nach wie vor fehlt. Google liefert zu allen der beeindruckenden Demo-Clips auch die verwendeten Prompts mit, d.h. User können Qualitätsvergleiche mit ihrer bevorzugten Video-KI anstellen.
In eigenen Tests anhand von Metas MovieBench mit 1003 unterschiedlichen Prompts aus allen Bereichen, bevorzugten die Teilnehmer laut Google überwiegend die Videos von Veo 2 gegenüber denen von Kling 1.5, Minimax und Sora Turbo. Und soweit man anhand der Demovideos beurteilen kann, ist die Qualität der Clips in der Tat extrem hoch.

Veo 2 soll ein verbessertes Verständnis von physikalischen Zusammenhängen sowie der Feinheiten menschlicher Bewegungen und Ausdrücke bieten und damit eine höhere Detailtreue und Realismus ermöglichen. Auch filmischen Jargon soll Veo 2 interpretieren können, sodass verschiedene Genres, Objektive oder besondere Einstellungen wie etwa eine Verfolgungsaufnahme aus der Froschperspektive oder eine Nahaufnahme des Gesichts einer Wissenschaftlerin, die durch ihr Mikroskop blickt, per Prompt nachempfunden werden können.
"Halluzinationen", also dazuerfundene, unrealistische Details wie etwa zusätzliche Finger oder unerwartete Objekte, sollen seltener als bei anderen Video-KIs vorkommen. Google erwähnt beim neuen Veo-2-Modell allerdings noch nichts von Fähigkeiten wie dem objektorientierten Video-Editing, das beim Veo Preview demonstriert wurde oder die für Veo bereits angekündigte Möglichkeit, Videos automatisch per Video-to-Audio KI mit einer Tonspur zu unterlegen und zwar sowohl mit Musik, Soundeffekten als auch gesprochenen Dialogen.
Ab heute stehen die neuen Veo-2-Funktionen ausgewählten Nutzern von VideoFX, dem Google-Labs-Tool für die Videogenerierung, zur Verfügung (welches allerdings noch nicht in Deutschland zugänglich ist). Hier können allerdings im Gegensatz zu den offiziellen 4K-Democlips nur Videos mit einer Auflösung von 720p (bei 8 Sekunden maximaler Länge) generiert werden. Im Laufe des nächsten Jahres soll Veo 2 unter anderem für die Generierung von YouTube Shorts integriert werden. Wie auch andere Google-KI-Modelle zur Erstellung von Bildern und Videos enthalten auch die Ergebnisse von Veo 2 ein unsichtbares SynthID-Wasserzeichen, das sie als KI-generiert kennzeichnet.
// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
VideoFX Oberfläche:
Veo 2 im Realitycheck: Ist Veo 2 das neue Sora?
Da die oben eingebetteten Videos alles offizielle Democlips von Google sind, hier noch - um Cherry Picking auzuschliessen - zum Vergleich Videos, welche von Usern generiert wurden (im ersten Versuch, jeweils das Beste aus den vier generierten Alternativen). Veo 2 scheint auch so komplizierte Motive wie Tennis oder Gymnastik zu beherrschen:
Veo 2 prompt: "a distant shot zooms in to reveal a knight wearing a golden helmet, he begins to charge on his zebra, lowering his lance, charging towards a clockwork octopus" (this is one of the initial 4 videos it made) pic.twitter.com/OzqsyLWIDq
— Ethan Mollick (@emollick) December 17, 2024
I just got access to the new @GoogleDeepMind Veo 2, and it&s blowing my mind.
— Pietro Schirano (@skirano) December 16, 2024
Check out the collision in the first video or the hands playing the guitar. pic.twitter.com/3Sa4cxR2yh
Google Veo 2 and VideoFX is incredible with physics.
— Jerrod Lew (@jerrod_lew) December 16, 2024
Here are some sport related outputs.
All of these were created text-to-video.
Incredible realism. pic.twitter.com/wWJaUHaN4H
Whoa, @labsdotgoogle dropped Veo 2.0 today. I have early access & I&m thoroughly impressed! Join the waitlist, link in thread. 🧵
— Blaine Brown (@blizaine) December 16, 2024
Here are some of my first generated clips, set to music via @sunomusic more to come! pic.twitter.com/8g96nOP6VX
Here&s a quick sizzle reel with a bunch of insane shots I generated with @GoogleAI #VideoFX #Veo2 today.
— AI & Design (Marco) (@AIandDesign) December 17, 2024
Google is the new king of the hill, y&all. It&s not even close. And this is just the beginning. From here on out, this is the worst AI video will ever look. Let that sink… pic.twitter.com/ubEiAhKTeO
UPDATE 17. Dezember 12:21: Nachdem jetzt immer mehr von Usern generierte Videos online sind, scheint sich das Erbegnis von MovieBench zu bewahrheiten, dass Veo 2 tatsächlich besser ist als alle bisherigen Video-KIs.