Text-zu-Video KI jetzt auch von Google: Imagen Video

// 16:48 Do, 6. Okt 2022von Thomas Richter

Nachdem Meta gerade seine Make-a-Video KI zur Generierung von Videos nach Textbeschreibung vorgestellt hatte, hat Google jetzt nachgezogen und mit Imagen Video auch eine solche KI veröffentlicht. Eigentlich ist dies sogar schon der zweite text-2-video Algorithmus von Google, da jetzt enthüllt wurde, daß die zeitgleich mit Facebooks KI veröffentlichte Videogenerierungs KI Phenaki, die ursprünglich anonym veröffentlicht wurde, auch von einem Google Team entwickelt wurde.

Imagen Video kann - ganz analog zu den Bildgenerierungs KIs wie etwa Stable Diffusion, DALL-E 2 und Imagen - durch eine Kette von Diffusion Modellen nur anhand einer kurzen Textbeschreibung beliebige Objekte in einem beliebigen Bildstil erzeugen und diese sinnvoll animieren. Wie schon diese "versteht" auch Imagen Video Räumlichkeit und kann so Kamerafahrten durch dreidimensionale Räume produzieren, physikalisch korrekt die Beleuchtung von Szenen ändern (inklusive de Schattenwurfs) oder Objekte umkreisen oder diese rotieren.

Drone flythrough a tropical jungle covered in snow

Animationen in HD Video-Qualität

Imagen Video erzeugt hochauflösende Videos durch eine Reihe kaskadierender Diffusionsmodelle. In einem ersten Schritt wird eine Eingabeaufforderung kodiert, dann generiert ein Basis-Video-Diffusionsmodell ein Video aus 16 Einzelbildern mit einer Auflösung von 24×48 Pixeln und 3 Bildern pro Sekunde; darauf folgen mehrere Modelle für temporale Super-Resolution (TSR) und räumliche Super-Resolution (SSR), um ein Upsampling durchzuführen und ein endgültiges 128-Bilder-Video mit einer Auflösung von 1280×768 und 24 Bildern pro Sekunde zu generieren - das Ergebnis ist dann ein 5.3 Sekunden langes hochauflösendes Video. Hier findet sich das Forschungspapier.

Die folgenden Beispielen (auf der Seite von Imagen Video finden sich noch mehr) demonstrieren schön die Fähigkeiten von Google Imagen Video was Raumverständnis, Korrektheit von Bewegungen, Beziehungen zwischen Objekten, Malstile oder auch von Texten angeht:

A Astronaut riding a horse

A cat eating food in a bowl in style of van Gogh

a drone flying through the interior of Sagrada Familia cathedral

a bunch of colorful candies falling into a tray in the shape of "Imagen Video", smooth video

teddy bear iceskating on times square

// Top-News auf einen Blick:

a drone flying through the interior of Sagrada Familia cathedral

Google Phenaki

Googles Phenaki ist im Vergleich zu Imagen Video ein komplementärer Entwurf, denn es besitzt eine viel geringere Auflösung (256 x 256 Pixel), erlaubt aber dafür die Erzeugung von viel längeren Videos anhand von cinematischen Promptsequenzen wie etwa "Viel Verkehr in einer futuristischen Stadt. Ein außerirdisches Raumschiff kommt in der futuristischen Stadt an. Die Kamera geht in das Innere des Raumschiffs der Außerirdischen. Die Kamera bewegt sich vorwärts, bis sie einen Astronauten in einem blauen Raum zeigt. ".

So kann Phenaki nicht nur wie Metas Make-a-video oder Imagen Video kurze Animationsclips generieren, sondern lange Plansequenzen, in denen per Kamerabewegung oder Morphings von Szene zu Szene gewechselt wird. Der User wird so zum Regisseur und Drehbuchautor seines eigenen generierten Films. Phenaki gibt trotz der noch geringen Bildqualität so eigentlich am besten einen Ausblick auf die Zukunft und von Usern im Zusammenspiel mit Text-2-Video KIs produzierten Filmen.

Hier ein über 2 Minuten langes Video von Phenaki:

Ein 30-sekündiges Video (128 x 128 Pixel mit 8fps) wird in nur 22 Sekunden generiert d.h. es wird schneller erzeugt als es angeschaut werden kann (mit besserer Hardware und optimiertem Algorithmus in Zukunft natürlich auch in einer höheren Auflösung und Framerate). So könnte in Echtzeit beim Anschauen ein individueller Film erzeugt werden und so zum Beispiel live auf Feedback von Usern reagieren.

Leider hat Google noch keinen Source Code für beide Algorithmen veröffentlicht - offiziell ist das der Angst geschuldet, daß mit den KIs gewalttätige, diffamierende oder pornographische Inhalte erzeugt werden - es wird aber an entsprechenden Filtern gearbeitet.

mehr Infos bei
imagen.research.google

Auf Socials teilen:

Leserkommentare // Neueste

Kommentieren >>

Ähnliche News //

News

Editing per Prompt Google Veo am Start - neue Video-KI macht über 60 Sekunden lange Clips

Während das einstige Spitzenmodell OpenAIs Sora noch immer nicht öffentlich ist, geht der Kampf um die beste Video-KI unvermindert geht weiter - jetzt hat Google sein erstmals Mai ...

// 11:52 Fr, 6. Dez 2024von Thomas Richter

News

VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC

Ein chinesisches Forscherteam hat eine neue Text-to-Video KI veröffentlicht, mit der sich Videos per Texteingabe erzeugten lassen. Ähnliche Algorithmen haben zwar schon Meta mit .....

// 13:41 Mo, 20. Mär 2023von Thomas Richter

News

Runway Gen2: Stable Diffusion Schöpfer stellen neue Text-to-Video-KI vor

Runway Research, das Unternehmen hinter der Bild-KI Stable Diffusion, hat gerade die neue Video-KI Runway Gen2 angekündigt, deren Fähigkeiten die der ersten Version (Runway Gen1) ....

// 19:58 Mo, 20. Mär 2023von Thomas Richter

News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion .....

// 10:57 Mo, 30. Jan 2023von Thomas Richter

News

Bald filmreif? Neue NVIDIA-KI erzeugt hochauflösende Videos per Texteingabe

Schneller als noch vor kurzem gedacht verbessert sich die Qualität von Text-zu-Video-KIs. Waren vor kurzer Zeit vorgestellte Video-KIs wie Metas Make-a-Video, Googles Imagen und ....

// 10:28 Do, 20. Apr 2023von Thomas Richter

zur Newsübersicht >

GPU-Krise 2026 Neue Gerüchte: Nvidia soll die GPU-Produktion 2026 um 30-40% runterfahren

Wie erwartet, weiten sich die direkten und indirekten Folgen der von Sam Altmann verursachten Speicherkrise aus - neben massiv teureren Speichermodulen, PCs und SSDs trifft es ...

// 19:07 Mi, 17. Dez 2025von Thomas Richter

News

KI-Boom trifft SSD-Markt Leak: Samsungs plant SATA-Aus - Kommt der Preisschock auch bei SSDs?

Neuen Gerüchten von MooresLawIsDead zufolge will Samsung aus der Produktion von SATA-SSDs aussteigen; angekündigt werden soll dies im Januar. Ein solcher Schritt hätte kurz- und .....

// 19:11 Mo, 15. Dez 2025von Thomas Richter

News

Anstieg bei Kameraverkäufen Kompaktkameras wieder im Trend - trotz Smartphones

Als im April unerwartet viele DSLMs verkauft wurden - 36% mehr als im Vorjahresmonat -, stellte sich die Frage nach einer möglichen Trendwende auf dem Kameramarkt. Ob sich die ...

// 15:32 Mo, 15. Dez 2025von blip

Test

Nachgefasst Sony FX3 Sensor-Test - Dynamik, Debayering und Rolling Shutter

Die Sony FX3 ist eine der wenigen relevanten Kameras, die wir bislang nicht in unserem Dynamik-Vergleichstest testen konnten - was wir hiermit endlich nachholen wollen.

// 13:51 Mi, 10. Dez 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Meinung

Paradigmenwechsel KI Google Veo 2 zeigt neue Perspektiven für die Videoproduktion

Mit Veo 2 setzt sich Google an die Spitze aller aktuellen KI-Videogeneratoren. Und zeigt zugleich auf, wohin der KI-Hase laufen wird...

// 16:00 Do, 19. Dez 2024von Rudi Schmidts

Praxis

Effektives Prompting für KI-Videos mit Adobe Firefly

Neue Studio Displays und mehr Apple Roadmap 2026 - iMac Pro mit M5 Max und MacBooks mit M6 geplant

Wir hatten ja schon vor rund einem Monat dank des Apple Insiders Mark Gurman einen groben Einblick in Apples Roadmap fürs nächste und übernächste Jahr bekommen; jetzt sind noch ...

// 13:02 Do, 18. Dez 2025von Thomas Richter

News

Resolve & Fusion Fixes Blackmagic DaVinci Resolve 20.3.1 Update

Blackmagic hat gerade die neue Version 20.3.1 seines kostenlosen Grading-, Schnitt-, Compositing- und Audio-Mastering-Programms DaVinci Resolve (Windows/macOS/Linux/Windows for ...

// 11:14 Do, 18. Dez 2025von Thomas Richter

zur Newsübersicht >

Text-zu-Video KI jetzt auch von Google: Imagen Video

Animationen in HD Video-Qualität

// Top-News auf einen Blick:

Google Phenaki

Editing per Prompt Google Veo am Start - neue Video-KI macht über 60 Sekunden lange Clips

VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC

Runway Gen2: Stable Diffusion Schöpfer stellen neue Text-to-Video-KI vor

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Bald filmreif? Neue NVIDIA-KI erzeugt hochauflösende Videos per Texteingabe

GPU-Krise 2026 Neue Gerüchte: Nvidia soll die GPU-Produktion 2026 um 30-40% runterfahren

KI-Boom trifft SSD-Markt Leak: Samsungs plant SATA-Aus - Kommt der Preisschock auch bei SSDs?

Anstieg bei Kameraverkäufen Kompaktkameras wieder im Trend - trotz Smartphones

Nachgefasst Sony FX3 Sensor-Test - Dynamik, Debayering und Rolling Shutter

Paradigmenwechsel KI Google Veo 2 zeigt neue Perspektiven für die Videoproduktion

Sponsored Workshop Effektives Prompting für KI-Videos mit Adobe Firefly

Neue Studio Displays und mehr Apple Roadmap 2026 - iMac Pro mit M5 Max und MacBooks mit M6 geplant

Resolve & Fusion Fixes Blackmagic DaVinci Resolve 20.3.1 Update

ARTIKEL

THEMEN