Neue Video-KI VideoJAM von Meta erzeugt Videos mit sehr realistischen menschlichen Bewegungen

Generative Video-KIs haben erhebliche Fortschritte gemacht, kämpfen aber weiterhin oft damit, die Bewegungen von Menschen und Objekten realistisch, also kausal korrekt, darzustellen. Meta hat jetzt mit VideoJAM ein neues Framework vorgestellt, durch das sich diese Probleme beheben lassen sollen, indem – laut Meta-Forschern anders als bei den konkurrierenden Video-KIs – beim Training nicht die Qualität der Darstellung gegenüber der Bewegung bevorzugt wird.

Vergleich von VideoJAM mit Sora, Kling 1.5 und Runway Gen 3
Vergleich von VideoJAM mit Sora, Kling 1.5 und Runway Gen 3


VideoJAM besteht aus zwei zentralen Komponenten: Während des Trainings werden sowohl die einzelnen Pixel, als auch deren zugehörige Bewegung von einem Einzelbild zum nächsten vorausgesagt. Später beim Generieren kann dann auf die gelernten Bewegungsvorhersagen als dynamisches Leitsignal Bezug genommen werden.





Interessanterweise kann VideoJAM mit minimalen Anpassungen auf jedes Videomodell angewendet werden, ohne dass Änderungen an den Trainingsdaten oder der Skalierung erforderlich sind - es erreicht so den aktuellen Stand der Technik in Bezug auf Bewegungsstimmigkeit und verbessert gleichzeitig die visuelle Qualität. VideoJAM zeigt somit, dass die Integration von Erscheinungsbild und Bewegung sowohl die Kohärenz als auch die Gesamtqualität von Videos verbessern kann.


VideoJAM Modell
VideoJAM Modell

Dass VideoJAM tatsächlich aktuell konkurrierende Modelle übertrifft, soll anhand eines qualitativen Vergleichs mit den führenden KI-Modellen (den proprietären Modellen Sora, Kling und Runway Gen3) sowie einem Basismodell, von dem aus VideoJAM feingetunt wurde (DiT-30B) anhand repräsentativer Prompts demonstriert werden (allerdings wurde inzwischen Kling 1.6 veröffentlicht, welches sich ebenfalls durch eine sehr gute Bewegungsdarstellung auszeichnet):









Die Democlips sind tatsächlich beeindruckend, zeigen sie doch komplizierte Bewegungsabläufe wie etwa eine Piroutte, Breakdancing oder einen Skateboardsprung, welche bei anderen Video-KIs oft zu Darstellungsproblemen an den Extremitäten führen.


Ähnliche News //
Umfrage
    Welche Streaming-Dienste nutzt Du?













    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash