Logo Logo
/// News

Text-zu-Video KI jetzt auch von Google: Imagen Video

[16:48 Do,6.Oktober 2022 [e]  von ]    

Nachdem Meta gerade seine Make-a-Video KI zur Generierung von Videos nach Textbeschreibung vorgestellt hatte, hat Google jetzt nachgezogen und mit Imagen Video auch eine solche KI veröffentlicht. Eigentlich ist dies sogar schon der zweite text-2-video Algorithmus von Google, da jetzt enthüllt wurde, daß die zeitgleich mit Facebooks KI veröffentlichte Videogenerierungs KI Phenaki, die ursprünglich anonym veröffentlicht wurde, auch von einem Google Team entwickelt wurde.


Google-Imagen-small
Google Imagen Video


Imagen Video kann - ganz analog zu den Bildgenerierungs KIs wie etwa Stable Diffusion, DALL-E 2 und Imagen - durch eine Kette von Diffusion Modellen nur anhand einer kurzen Textbeschreibung beliebige Objekte in einem beliebigen Bildstil erzeugen und diese sinnvoll animieren. Wie schon diese "versteht" auch Imagen Video Räumlichkeit und kann so Kamerafahrten durch dreidimensionale Räume produzieren, physikalisch korrekt die Beleuchtung von Szenen ändern (inklusive de Schattenwurfs) oder Objekte umkreisen oder diese rotieren.


Drone flythrough a tropical jungle covered in snow

Animationen in HD Video-Qualität


Imagen Video erzeugt hochauflösende Videos durch eine Reihe kaskadierender Diffusionsmodelle. In einem ersten Schritt wird eine Eingabeaufforderung kodiert, dann generiert ein Basis-Video-Diffusionsmodell ein Video aus 16 Einzelbildern mit einer Auflösung von 24×48 Pixeln und 3 Bildern pro Sekunde; darauf folgen mehrere Modelle für temporale Super-Resolution (TSR) und räumliche Super-Resolution (SSR), um ein Upsampling durchzuführen und ein endgültiges 128-Bilder-Video mit einer Auflösung von 1280×768 und 24 Bildern pro Sekunde zu generieren - das Ergebnis ist dann ein 5.3 Sekunden langes hochauflösendes Video. Hier findet sich das Forschungspapier.

Die folgenden Beispielen (auf der Seite von Imagen Video finden sich noch mehr) demonstrieren schön die Fähigkeiten von Google Imagen Video was Raumverständnis, Korrektheit von Bewegungen, Beziehungen zwischen Objekten, Malstile oder auch von Texten angeht:


A Astronaut riding a horse


A cat eating food in a bowl in style of van Gogh


a drone flying through the interior of Sagrada Familia cathedral


a bunch of colorful candies falling into a tray in the shape of "Imagen Video", smooth video


teddy bear iceskating on times square


a drone flying through the interior of Sagrada Familia cathedral


Google Phenaki


Googles Phenaki ist im Vergleich zu Imagen Video ein komplementärer Entwurf, denn es besitzt eine viel geringere Auflösung (256 x 256 Pixel), erlaubt aber dafür die Erzeugung von viel längeren Videos anhand von cinematischen Promptsequenzen wie etwa "Viel Verkehr in einer futuristischen Stadt. Ein außerirdisches Raumschiff kommt in der futuristischen Stadt an. Die Kamera geht in das Innere des Raumschiffs der Außerirdischen. Die Kamera bewegt sich vorwärts, bis sie einen Astronauten in einem blauen Raum zeigt. ".



So kann Phenaki nicht nur wie Metas Make-a-video oder Imagen Video kurze Animationsclips generieren, sondern lange Plansequenzen, in denen per Kamerabewegung oder Morphings von Szene zu Szene gewechselt wird. Der User wird so zum Regisseur und Drehbuchautor seines eigenen generierten Films. Phenaki gibt trotz der noch geringen Bildqualität so eigentlich am besten einen Ausblick auf die Zukunft und von Usern im Zusammenspiel mit Text-2-Video KIs produzierten Filmen.

Hier ein über 2 Minuten langes Video von Phenaki:



Ein 30-sekündiges Video (128 x 128 Pixel mit 8fps) wird in nur 22 Sekunden generiert d.h. es wird schneller erzeugt als es angeschaut werden kann (mit besserer Hardware und optimiertem Algorithmus in Zukunft natürlich auch in einer höheren Auflösung und Framerate). So könnte in Echtzeit beim Anschauen ein individueller Film erzeugt werden und so zum Beispiel live auf Feedback von Usern reagieren.

Leider hat Google noch keinen Source Code für beide Algorithmen veröffentlicht - offiziell ist das der Angst geschuldet, daß mit den KIs gewalttätige, diffamierende oder pornographische Inhalte erzeugt werden - es wird aber an entsprechenden Filtern gearbeitet.

Link mehr Informationen bei imagen.research.google

  
[noch keine Leserkommentare] [Kommentar schreiben]   

  Vorige News lesen Nächste News lesen 
bildSanDisk Professional PRO-G40 SSD: Externe SSD mit Thunderbolt 3, USB 3.2 Gen 2 und 2.700 MB/s bildKinefinity: Neue Firmware KineOS 7.1 bringt MAVO Edge Kameras neuen ProRes4444-Effizienzmodus und SDI-Funktionen


verwandte Newsmeldungen:
Machine Learning:

Heavy Metal meets Midjourney: Musikvideo aus 10.000 KI-generierten Bildern 4.Dezember 2022
Meta Encodec komprimiert mit KI Audio-Dateien deutlich stärker als MP3 21.November 2022
KI kopiert Filmstil von "Into the Spider-Verse"in Rekordzeit 14.November 2022
MAXIM - KI-Tool vereint diverse Bildverbesserungen in einem Modell 13.November 2022
Blackmagic Resolve 18.1 Update u.a. mit KI-Sprach-Isolation und Vektor-Keyframes 11.November 2022
Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die Gretchenfrage 5.November 2022
AvatarCLIP: Neue KI generiert und animiert 3D-Avatare per Textbeschreibung 28.Oktober 2022
alle Newsmeldungen zum Thema Machine Learning


[nach oben]

















passende Forenbeiträge zur News:

Archive

2022

Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 9.Dezember 2022 - 15:02
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*