[10:28 Do,20.April 2023 [e] von Thomas Richter] |
Schneller als noch vor kurzem gedacht verbessert sich die Qualität von Text-zu-Video-KIs. Waren vor kurzer Zeit vorgestellte Video-KIs wie Metas
![]() Mitgearbeitet im Forscherteam von NVIDIA haben mit Andreas Blattman und Robin Rombach zwei Experten der LMU München, die auch schon die Bild-KI Stable Diffusion mitentwickelten. Wie diese nutzt auch die neue Video-KI ein latentes Diffusionsmodell (LDM) für Standbilder. Aus dem Standbildgernerator wird ein Videogenerator, indem eine zeitliche Dimensionsvariable in das Diffusionsmodell mit eintrainiert wird. Da das genutzte Modell von Stable-Diffusion-Gewichten abgeleitet wurde, liegt die primäre Output-Auflösung noch deutlich unter HD. Deswegen bekommt auch der darauffolgende Diffusion Upsampler ebenfalls eine zeitliche Komponente spendiert, was dann zu einer zeitlich konsistenten Video-Superresolution führt. Mit dieser Verkettung sind dann mehrere Sekunden lange Videos mit einer Auflösung von bis zu 1.280 x 2.048 Pixel bei "vertretbarem" Rechenaufwand möglich. Die Framerate wird zweimal mit der Hilfe eines speziellen Latent Diffusion Modells hochgesamplet, um relativ flüssige Bilder mit 24 fps zu ermöglichen. ![]() Eine ganze Reihe von 4.7 Sekunden langen Beispielvideos kann man auf der ![]() Interessant ist auch die Möglichkeit, per ![]() ![]() Es gibt auch einen ganz besonderen Anwendungsfall, in welchem die neue Methode sogar mehrere Minuten lange kohärente Videos - allerdings nur mit einer Auflösung von 512 x 1.024 Pixeln - erzeugen kann, nämlich Videos von Fahrszenen in freier Wildbahn. Im folgenden ein 9-sekündiger Clip - das ganze 5-minütige Video findet sich ![]() Bei der aktuellen Entwicklungsgeschwindigkeit dürfte es nicht mehr lange dauern, bis auch noch längere, wirklich fotorealistische Videos per Texteingabe frei erzeugt werden können. ![]() |
![]() |