Bessere Objektkonsistenz Vidu 1.5 generiert Videoclips aus bis zu 3 vorgegebenen Bildinhalten

// 19:18 Do, 14. Nov 2024von

Das KI-Modell hinter dem chinesischen, multimodalen Videogenerator Vidu wurde weiterentwickelt - die neue Version 1.5 bringt laut Shengshu Technology eine "Multi-Entitäten-Konsistenz". Dies will heißen, dass das Modell in der Lage ist, Abbildungen von verschiedensten Objekten, Figuren oder Umgebungen sinnvoll miteinander zu einem Video zu verweben. Was wiederum bedeutet, dass man bei der Generierung von KI-Clips mehr Kontrolle über die erstellten Bilder gewinnt, indem man inhaltliche Komponenten genauer vorgeben kann.

Vidu 1.5 generiert Videoclips aus bis zu 3 vorgegebenen Bildinhalten





Werden etwa Abbildungen einer Person, eines bestimmten Kleidungsstücks sowie eines Mofas hochgeladen als Referenz, errechnet Vidu 1.5 ein Video, in welchem diese Person wie gewünscht gekleidet ist und Mofa fährt - diese Funktionalität findet sich laut der Entwickler momentan in keinem anderen KI-Videomodell. Darüberhinaus sollen die Referenzobjekte (beziehungsweise -figuren und -umgebungen) im generierten Video in sich konsistent dargestellt werden und nicht, wie so häufig in KI-Videos, nach und nach ineinander morphen oder sich auflösen.




Ebenfalls neu ist die Fähigkeit, eine konsistente Figurendarstellung aus verschiedenen Blickwinkeln zu gewährleisten - werden drei Fotos einer Person vorgegeben, soll Vidu 1.5 eine nahtlose 360°-Ansicht errechnen und dabei auch verschiedene Gesichtsausdrücke natürlich wiedergeben können.



Erweiterte Kontrolle soll sich auch über die gewünschte (virtuelle) Kamerabewegung ausüben lassen, sodass sich horizontale und vertikale Schwenks sowie Zoomfahrten, auch in Kombination miteinander, für anspruchsvolle Einstellungen generieren lassen. Für Zeichentrick-Fans sind neue Animations-Styles sind hinzugekommen wie japanischer Fantasy oder Hyperrealismus.



Bilddetails sollen in den von Vidu 1.5 erstellten Clips nun genauer generiert werden, die maximale Auflösung beträgt wie bisher 1080p. Gleichzeitig soll es auch schneller gehen - um 4 Sekunden Bewegtbild zu generieren, sollen 25 Sekunden Rechenzeit ausreichend sein. Dank Fortschritten beim semantischen Verständnis soll das neue KI-Modell Textprompts präziser als zuvor interpretieren, sodass sich auch komplexe Szenen umsetzen lassen sollen.




Trend: Mehr Kontrollmöglichkeiten für Video-KIs

Mehr Kontrollmöglichkeiten über das Bild und eine bessere visuelle Konsistenz werden aktuell auch bei konkurrierenden Video-KIs angestrebt. So soll ein großes neues Feature im kommenden Kling 1.5 die Möglichkeit sein, eigene Charaktere trainieren zu können, um sie dann quasi als virtuelle Schauspieler zu nutzen. Runway wiederum erlaubt es mit dem neuen Gen-3 Alpha Turbo-Modell, über eine neue Kamerasteuerung ins Bild rein- oder rauszuzoomen, nach links oder rechts, nach oben oder unten zu schwenken oder das Bild zu rotieren.


Umfrage
    Generative Video-KI: Hast du ein Abo?







    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash