[09:41 Fr,14.Januar 2022 [e] von Rudi Schmidts] |
Und mal wieder ein KI-Paper, das man eigentlich schon vorhersehen konnte - und trotzdem staunt, dass solche Dinge nun einfach möglich sind. Diesmal geht es es darum, tanzende Menschen aus Youtube Videos in jeder Phase ihrer Bewegung von allen Seiten "schätzen" zu können. Klingt erst mal sperrig, darum am Beispiel erklärt. Nachdem sich HumanNeRF ein Video aus dem Netz angesehen hat, kann es... ![]()
Die KI lernt also aus einem relativ willkürlichen Tanz, wie das Objekt von allen Seiten aussieht und kann somit auch zu jedem Frame seine Vorstellung dazu rendern, wie das Objekt aus einem anderen Blickwinkel aussehen würde. Dies geht soweit, dass sogar der korrekte Faltenwurf der Kleider simuliert wird. Im extremen Fall kann das KI-Modell sogar ein plausiblen Blick 180 Grad von hinten auf die Person "erfinden". Also eine Perspektive in der kein echtes Pixel vom Originalclip zu sehen ist. Das erstaunliche an diesem Algorithmus ist somit, dass hier ein Programm aus der Sicht einer einzigen Kamera ein Modell zur 3D-Struktur von Menschen und Kleidern gewinnen kann. Und dieses Modell anschließend auch ziemlich als beeindruckendes 3D-Modell wiedergibt. Die Qualität der erzeugten Perspektivenänderung ist sehr unterschiedlich und natürlich extrem von dem Trainingsmaterial abhängig. Allerdings liegt sie deutlich über älteren KI-Verfahren und meistens mindestens auf dem Niveau einer guten Videospiel 3D-Simulation. Und somit schon heute sicherlich brauchbar um Menschen in einer Virtuellen Umgebung im Hintergrund mitzubewegen oder im Bokeh unscharf verschwimmen zu lassen. Im Gegensatz zu speziellen 3D-Scans gewinnt HumanNeRF seine Daten nur durch das Betrachten einer Bewegung. Es muss also nicht spezifisch getanzt werden. Der Körper sollte nur einmal von allen Seiten gesehen worden sein. Fantastische Zeiten.... ![]() |
![]() |