Meinung

Midjourney trifft Pika Labs: Generative KI -Videos - Was geht, was kommt?

Seitdem Midjourney oder Stable Diffusion fotorealistische Bilder generieren kann, will man natürlich auch realistische Bewegungen "digital erträumen". Doch das erweist sich für ein KI-Modell noch einmal als ziemlich anspruchsvollere Aufgabe...

// 10:22 Fr, 29. Sep 2023von Rudi Schmidts

Seitdem man mit generativen KI-Modellen wie Midjourney oder Stable Diffusion fotorealistische Bilder generieren kann, warten KI-Apologeten nun natürlich auch sehnsüchtig darauf, ähnlich imposante, bewegte Ergebnisse zu Gesicht zu bekommen. Doch eine realistische Bewegung für einen animierten Clip "digital zu erträumen" erweist sich für ein KI-Modell noch einmal als deutlich anspruchsvollere Aufgabe, als "nur" ein realistisches Standbild zu erstellen.

Bewegung triggert die Aufmerksamkeit

Das grundsätzliche Problem ist dabei, dass uns Menschen unnatürliche Bewegungen noch viel schneller auffallen, als kleine, fehlerhafte Details in Fotos. Da unser Wahrnehmungssystem besonders stark auf Veränderungen in unserem Blickfeld getrimmt ist und diese von unseren evolutionären Primär-Reflexen (optimiert auf Jagd und Flucht) vorrangig verarbeitet werden, fallen hier kleinste Unstimmigkeiten sofort auf. Und lenken unser Augenmerk ganz besonders auf jede Unstimmigkeit in der Wahrnehmung. Umso erstaunlicher ist es, mit welchen Fortschritten die neuesten KI-Modelle nun auch das Problem einer glaubwürdigen Bewegung angehen.

Ein grundsätzliches Problem bleibt vorerst bestehen; Nachdem man weder den kompletten Bildinhalt noch die notwendigen Bewegungsschritte erschöpfend mit einem Prompt beschreiben kann, muss die KI immer viele offene (weil nicht formulierte) Bereiche des Bildes selbst plausibel "erfinden". Beschreibt man beispielsweise nur: "Drehe den Kopf nach links", so bleibt trotzdem viel notwendige Information unformuliert, und damit undefiniert.

Sprache kann nicht alles beschreiben

Wie soll sich zum Beispiel die Mimik während einer Kopfdrehung verändern? Was soll mit den Haaren passieren? Sollte die Person vielleicht nicht auch ein- oder zweimal blinzeln? Zudem lassen sich viele notwendige Details ohnehin nur schwer mit Sprache ausdrücken. Wie könnte man beispielsweise sinnvoll beschreiben, dass sich ein Hemdkragen bei der Bewegung in einer bestimmten Art und Weise falten soll. Und selbst wenn man hier viele Details formulieren könnte, so müssten diese Formulierungen auch schon in den Trainingsdaten vorgelegen haben - was wohl bislang auch nicht der Fall gewesen sein dürfte.

Aus Erfahrung einfach spinnen lassen?

Eine aktuelle (Zwischen?)-Lösung liegt darin, dem KI-Modell als Ausgangsmaterial ein fertiges Bild zu präsentieren und es dann daraus eine (höchstens offen) formulierte Bewegung weiterspinnen zu lassen. Trainiert werden solche Modelle mit sehr unterschiedlichen Bewegtbild-Daten, bei denen man vorhandene Frames in Videoclips auslässt und diese durch ein Netz mit dem echten Zwischenbild als Zielausgabe trainiert. Dies kann man sich wie die Restauration eines fehlenden Frames vorstellen.

Bewegung ohne Ziel

Nvidia nutzt diese Idee übrigens sehr erfolgreich, um bei Videospielen die Frameraten zu erhöhen, indem man fehlende Zwischenbilder in Echtzeit hinzu erfindet. Noch spannender ist es jedoch mittlerweile, das KI-Modell von einem Bild einfach selbständig losspinnen zu lassen. Also ohne ein festes Zielframe.

Aktuelle Beispiele

Im einfachsten Fall kann man -wie in unserem Mattepainting-Workshop oder bei den viralen Wes Anderson Clips- von der KI ein relativ einfaches, statisches Umfeld erschaffen lassen und Teilbewegungen in den Clip integrieren. Vor wenigen Tagen wurde beispielsweise ein neues Black Eyed Peas Musikvideo vorgestellt, welches sich offensichtlich zumindest teilweise dieser Technik bedient:

Mit neueren Tools wie Pika Labs kommt nun aber echtes Leben in die Bude. Hierbei können aus beliebigen Standbildern mittlerweile mehrere Sekunden Video weitergesponnen werden. Jetzt sogar inklusive der Bewegung von Objekten im ganzen Bild sowie Kamerafahrten. Ein erstaunliches Beispiel zum Stand der Technik liefert das zugegebenermaßen recht unappetitliche Video "Mucky Run" von douggy:

Da hier sowieso alles schleimt und glibbert, fallen die entsprechenden KI-Bewegungs-Artefakte nicht auf, sondern werden passend vom Thema selbst maskiert.

Mit ähnlichen Tricks kaschiert auch "Star Wars 2023" die eigentlich noch stark eingeschränkten Möglichkeiten von Pika Labs. Es gibt nur wenige Sekunden Clip am Stück und der Inhalt ist nicht so vertraut, dass das Bewusstsein jeden Bildfehler gleich ablehnt:

Sogar im Gegenteil: Hält man das Video an, sieht man in den Standbildern erstaunlich viele Fehler, die jedoch aufgrund der Fixierung auf die Bewegung beim ersten Sehen nicht unbedingt wahrgenommen werden.

Viel geht noch etwas daneben, aber einiges klappt!

KI-Kritische Leser werden nun wohl anmerken, dass viele Bewegungen dennoch nicht natürlich ausfallen. Wer jedoch etwas analytischer auf die Clips blickt, muss auch anerkennen, dass einige Bewegungen durchaus bereits sehr glaubhaft gelingen und man ohne KI für ein ähnliches Ergebnis ein Special Effects Studio schon für ein paar Wochen kostspielig auslasten könnte.

Kontrolle mit KI-Regieanweisungen

Aber natürlich ist die Kontrolle des visuellen Ergebnisses ein Problem. Bis auf weiteres bleibt der Zufall der eigentliche Regisseur und DOP der aktuellen generativen KI-Clips. Doch auch hier kommt sprichwörtlich Bewegung in die Forschung:

Ein sehr anschauliches Beispiel zum Stand der Technik lieferte Google mit "generativer Dynamik" ab. Hier lässt sich an Objekten in einem Standbild ziehen und zerren und das KI-Modell errechnet hierzu ein plausibles physikalisches Verhalten. Dieses "Ziehen statt Prompten" könnte somit vielleicht eine mögliche Zukunft für KI-Regieanweisungen werden.

KI mit Stil

In eine ganz andere Richtung geht der Einsatz von KI-Modellen als eine Art Style-Filter, der auch ganze Oberflächen und Objekte über die Zeit umwandeln kann. Martin Haerlin aus Berlin zeigt in diesem frischen Video, wie man aus einer einfachen Videovorlage sogar sehr lange Sequenzen mit guter zeitlicher Kohärenz (er)schaffen kann:

Hierbei kam übrigens Runway Gen-1 und Gen-2 zum Einsatz. Für solche Techniken braucht man allerdings auch entsprechend gefilmtes "Rohmaterial" als Input.

Also wann?

Man sieht jedenfalls bereits deutlich, mit welchen Schritten die Entwicklung von Bewegtbild-Modellen vonstattengeht - dennoch ist der Weg noch weit. Kleinste Fehler stören schnell den Gesamteindruck und machen einen professionellen Einsatz oft unbrauchbar. Jedoch ist zu erwarten, dass unter anderem Google, die mit Youtube auf einem unermesslichen Berg an Bewegtbild-Trainingsdaten sitzen, hier irgendwann mit einer imposanten Lösung aufschlagen werden. Denn es ist wirklich nur eine Frage der (Trainings)-Zeit, bis mächtigere Modelle glaubhafte Bewegungen aus diesen Daten lernen können.

Auch Möglichkeiten, die gezielte Bewegung der Objekte zu steuern, werden schnell zunehmen. Und nicht zuletzt wird es Tools geben, mit denen man auffällige Fehler im Clip einfach mit einem virtuellen Radiergummi entfernen, beziehungsweise neu erfinden lässt. Wann diese Ergebnisse letztlich gut genug sein werden, ist schwer zu sagen. Aber wir sind definitiv auf einem Weg zu immer besseren Ergebnissen in den nächsten Monaten und Jahren.

Leserkommentare // Neueste

Kommentieren >>

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

KI macht´s möglich: Fake-Filmstills von Fritz Langs Star Wars, Jodorowskys Tron und mehr

Die neuen bildgenerierenden KIs bescheren dem Genre "Was wäre wenn...?" ganz neue Möglichkeiten - ein eigenes Subgenre hat sich in der Community der Bild-KI Midjourney gebildet, ...

// 16:17 Di, 6. Dez 2022von Thomas Richter

Test

KI-Bilder mit Adobe Firefly - einfach, für jeden und besser als Midjourney oder Dall-E2?

Wir hatten bereits die Möglichkeit, Adobes neue KI-Tools namens Firefly auszuprobieren. Wie gut schlägt sich Adobes Einstieg in das Universum der KI-Bildgeneratoren?

// 14:23 Mi, 29. Mär 2023von Rudi Schmidts

Praxis

Mattepainting für Dummys - mit Photoshops Generative Fill Funktion

Wir hatten schon einmal kurz auf Photoshops "Generative Fill"-Möglichkeiten im Zusammenhang mit Videoaufnahmen hingewiesen. In diesem Workshop möchten wir zeigen, wie die ...

// 13:26 Mi, 16. Aug 2023von Rudi Schmidts

Meinung

Die IBC 2023 und die KI-Revolution - War da was oder kommt das noch?

Die IBC hat gerade wieder ihre Pforten geschlossen - doch von generativer Video KI war noch nichts zu sehen.

// 14:36 Mi, 20. Sep 2023von Rudi Schmidts

Wissen

Grundwissen KI Künstliche Intelligenz einfach erklärt - Perzeptron, Backpropagation und Loss

Generative KI-Modelle wie Midjourney, Runway oder Stable Diffusion werden immer leichter für jedermann zu bedienen. Dennoch verstehen die wenigsten Anwender was hinter den ...

// 12:18 Fr, 4. Aug 2023von Rudi Schmidts

Wissen

Wichtige KI-Begriffe einfach erklärt - Was bedeutet Seed und wofür braucht man das?

Nein, Generative KI geht ganz sicher nicht mehr weg und darum ist es sicherlich niemals zu früh, sich mit den Basics vertraut zu machen. Wie beispielsweise mit dem sogenannten ...

// 09:33 Di, 11. Apr 2023von Rudi Schmidts

Test

Luxus oder Arbeitstier? Beste Grafikkarte für DaVinci Resolve? Nvidia GeForce RTX 4080 Super

Bei schnellen Videoeffekten stellt Nvidia in der Regel die Referenz unter PC-Grafikkarten dar. Allerdings konnte Apple in den letzten Jahren mit erstaunlich konkurrenzfähigen SoCs ...

// 09:57 Di, 14. Mai 2024von Rudi Schmidts

Adobe Premiere Pro - Filler Word Detection und Enhance Speech erklärt

Text-Based Editing wird mit neuen Tools ausgebaut - mit einem einfachen Klick lassen sich nun Füllwörter (etwa die berüchtigten "Ähs") im Text automatisch finden und löschen, ...

// 11:59 Di, 26. Sep 2023von slashCAM

zur Artikelübersicht >

Unterstützung für mehr Handys Kostenlose Blackmagic Camera App 1.1 für Android bringt viele neue Funktionen

Vor rund einem Monat hatte Blackmagic seine kostenlose Camera App auch für Android veröffentlicht, jetzt ist bereits das erste Update erschienen, das zahlreiche neue Funktionen ...

// 14:17 Mo, 22. Jul 2024von Thomas Richter

News

Nicht nur 3D Animation Blender 4.2 LTS - kostenloses 3D-Softwarepaket jetzt mit GPU-Compositor

Das quelloffene 3D-Modelling- und Animations-Paket Blender wächst weiter. In der neuen Version 4.2 LTS sind sogar ziemlich relevante Verbesserungen für die Videobearbeitung ...

// 11:50 Sa, 20. Jul 2024von Rudi Schmidts

News

6K bzw. 8K 60p RAW Video Canon EOS R1 und R5 Mark II vorgestellt mit DIGIC Accelerator und mehr

Gleich zwei neue Spitzenmodelle für sein EOS R-System präsentiert Canon heute - die EOS R1 und EOS R5 Mark II bringen beide verbesserte Autofokus-Fähigkeiten sowie eine erweiterte ...

// 12:05 Mi, 17. Jul 2024von blip

News

APS-C Wechselobjektivkamera Kompakte Sony ZV-E10 II mit 10bit 4K 60p und Kinolook-Funktionen angekündigt

Sony verbessert seine kleine "Vlogging"-Kamera ZV-E10 - so verfügt die neue Generation II (wie im Vorfeld gemunkelt) über einen neuen Sensor, Dank welchem nun 4K-Videoaufnahmen ...

// 17:23 Mi, 10. Jul 2024von blip

TOP THEMEN //

MEHR ARTIKEL

zur Artikelübersicht >

PASSENDE DISKUSSIONEN

zum Forum >>

Aktuelle News //

News

Geleakte Liste Runway Gen-3 Video-KI wurde an tausenden, ausgesuchten YouTube-Videos trainiert

KI-Videomodelle werden zunehmend besser, die Qualität ihres Outputs hängt bekanntlich jedoch stark von dem Videomaterial ab, anhand dessen sie lernen, wie Videos auszusehen haben. ...

// 17:13 Fr, 26. Jul 2024von blip

News

Mit besseren Kameras? Neue Drohnen im Anflug: Erst DJI Air 3S, dann Mavic 4?

Schon seit Mai kursieren Gerüchte über ein neues Drohnenmodell von DJI: zunächst drehten sich die Leaks der bekannten Accounts @OsitaLV und @Quadro_News um vereinzelte Abbildungen ...

// 19:14 Do, 25. Jul 2024von Thomas Richter

zur Newsübersicht >

zum Forum >>

Neueste Artikel //

Meinung

Dual Gain Output DGO-Sensoren - Was hemmt die Technologie trotz hoher Dynamik?

Mit DGO-Sensoren erzielen viele Kamerahersteller regelmäßig Bestwerte bei der Dynamik. Doch warum findet sich die Dual Gain Output Sensortechnologie nicht in viel mehr Kameras?

// 10:19 Do, 25. Jul 2024von Rudi Schmidts

Praxis

KI-Tools in der Filmproduktion: Moodboards mit Adobe Firefly erstellen