Seitdem man mit generativen KI-Modellen wie Midjourney oder Stable Diffusion fotorealistische Bilder generieren kann, warten KI-Apologeten nun natürlich auch sehnsüchtig darauf, ähnlich imposante, bewegte Ergebnisse zu Gesicht zu bekommen. Doch eine realistische Bewegung für einen animierten Clip "digital zu erträumen" erweist sich für ein KI-Modell noch einmal als deutlich anspruchsvollere Aufgabe, als "nur" ein realistisches Standbild zu erstellen.
Bewegung triggert die Aufmerksamkeit
Das grundsätzliche Problem ist dabei, dass uns Menschen unnatürliche Bewegungen noch viel schneller auffallen, als kleine, fehlerhafte Details in Fotos. Da unser Wahrnehmungssystem besonders stark auf Veränderungen in unserem Blickfeld getrimmt ist und diese von unseren evolutionären Primär-Reflexen (optimiert auf Jagd und Flucht) vorrangig verarbeitet werden, fallen hier kleinste Unstimmigkeiten sofort auf. Und lenken unser Augenmerk ganz besonders auf jede Unstimmigkeit in der Wahrnehmung. Umso erstaunlicher ist es, mit welchen Fortschritten die neuesten KI-Modelle nun auch das Problem einer glaubwürdigen Bewegung angehen.
Ein grundsätzliches Problem bleibt vorerst bestehen; Nachdem man weder den kompletten Bildinhalt noch die notwendigen Bewegungsschritte erschöpfend mit einem Prompt beschreiben kann, muss die KI immer viele offene (weil nicht formulierte) Bereiche des Bildes selbst plausibel "erfinden". Beschreibt man beispielsweise nur: "Drehe den Kopf nach links", so bleibt trotzdem viel notwendige Information unformuliert, und damit undefiniert.
Sprache kann nicht alles beschreiben
Wie soll sich zum Beispiel die Mimik während einer Kopfdrehung verändern? Was soll mit den Haaren passieren? Sollte die Person vielleicht nicht auch ein- oder zweimal blinzeln? Zudem lassen sich viele notwendige Details ohnehin nur schwer mit Sprache ausdrücken. Wie könnte man beispielsweise sinnvoll beschreiben, dass sich ein Hemdkragen bei der Bewegung in einer bestimmten Art und Weise falten soll. Und selbst wenn man hier viele Details formulieren könnte, so müssten diese Formulierungen auch schon in den Trainingsdaten vorgelegen haben - was wohl bislang auch nicht der Fall gewesen sein dürfte.