Obwohl wir fast wöchentlich neue Forschungsfortschritte bei der diffusionsbasierten Videogenerierung sehen, existiert hier ein grundsätzliches Problem: Die bestehenden Diffusionsmodelle lassen nur relativ kurze Modelle zu, da der Bildinhalt sich (noch?) nicht über längere Zeiträume konsistent generieren lässt.
Ein neues Projekt namens DynVideo-E versucht, dieses Problem nun mit einem recht analytischen Ansatz für einen Spezialfall exemplarisch zu lösen: Das Input Video ist dabei immer ein sich bewegender Mensch, der von einer bewegten Handkamera verfolgt wird.

Durch die Nutzung von dynamischen NeRFs (Neural Radiance Fields) versucht man, die gesamte Aufnahme zuerst einmal als texturierten 3D-Raum zu begreifen, der aus den Blickwinkeln der bewegten Kamera gewonnen wird. Der im Originalvideo vorkommende Mensch wird dabei auf die Bewegung seiner Posen reduziert.
// Top-News auf einen Blick:
- Blackmagic Resolve Studio für 236,81 bei Teltec - und weitere Angebote
- Bis zu 1.000 Euro sparen: Cashbacks auf Kameras von Sony, Nikon, Canon und Panasonic
- Ausgewählte Angebote - DJI Mavic 4 Pro, Canon R5 C, Sachtler aktiv12T...
- Die besten Black Friday Deals für Sony und Canon DSLMs und Objektive
- Blackmagic bietet bis zu 30% Rabatt auf seine 6K Kameras
- Große Übersicht - Black Friday Deals 2025 für Foto+Video - Kameras, Objektive, Zubehör usw.
Auch wenn die Ergebnisse noch weit davon entfernt sind, fotorealistisch zu sein, zeigt das Projekt die prinzipielle Möglichkeit auf, einzelne Objekte in einem Video gezielt zu modifizieren. Nicht zuletzt ist es auch denkbar, DynVideo-E-Clips anschließend als Input für ein weiteres diffusionsbasiertes Modell zu nutzen, welches dann noch fotorealistischer "rendern" könnte.
Dass KI-Modelle beeindruckende Bilder schaffen können, dürfte mittlerweile unbestreitbar sein. DynVideo-E zeigt dagegen eine mögliche Idee, wie sich KI-Modelle im Allgemeinen auch zuverlässiger steuern lassen könnten. Denn im Bereich der exakten Kontrolle über das Bild dürfte in nächster Zeit besonders viel Forschung gefragt sein.



















