Forscher von ByteDance, der Firma hinter TikTok, haben OmniHuman-1 vorgestellt, ein KI-Modell, das aus einem einzigen Foto eines Menschen realistische Videos erstellen kann, in denen dieser automatisch lebensecht animiert wird. Der Animierte spricht, gestikuliert, singt, spielt ein Instrument und mehr. OmniHuman unterstützt neben Menschen auch Animefiguren, künstliche Objekte und Tiere, behrrscht auch anspruchsvolle Posen und berücksichtigt bei der Animation die jeweils typischen Merkmale eines vorgegebenen Stils (etwa Anime).

Als Input für OmniHuman dient neben der Bildvorgabe (ein Porträt, Halb- oder Ganzkörperbild) eine Sprach- oder Gesangsaufnahme. Daraus wird dann ein Video mit einem beliebigen Seitenverhältnis errechnet, bei dem der Mensch (oder die Figur etc.) den Audio-Input inklusive passender Mundbewegungen, Mimik und Gesten vorträgt. Letztere werden interessanterweise kulturell passend animiert (Chinesisch sieht anders aus als Englisch). Die Beleuchtung samt Spiegelungen und Schattenwurf sowie die Textur werden automatisch angepasst.

The future of human video generation is here.
— OmniHuman-1 AI (@OmniHuman1AI) February 5, 2025
Watch as[OmniHuman-1] turns text into a hyper-realistic talking human in seconds! No actors, no cameras—just pure AI magic. pic.twitter.com/MOid3aKb90
Die offiziellen Democlips reichen von einer Animation von TED-Vorträgen über Gesangsaufnahmen samt Gitarre (deren Saitenspiel allerdings nicht korrekt animiert wird) bis hin zu Zeichentrickfiguren. Die animierten Menschen sehen tatsächlich mitsamt ihrer Gesten sehr realistisch aus – das Uncanny Valley scheint hier überwunden. Das OmniHuman Modell scheint keine Beschränkungen bezüglich der Dauer der generierten zu kennen, das längste gezeigte Beispiel ist 25 Sekunden lang und laut Paper begrenzt nur der Speicher die potentielle Länge.
More Halfbody Cases with Hands;
— OmniHuman-1 AI (@OmniHuman1AI) February 5, 2025
Here, we also provide additional examples specifically showcasing gesture movements. Some input images and audio come from TED, Pexels and AIGC. pic.twitter.com/18nEzr7QFA
Ein schöner Anwendungsfall ist die einfache Animation von gezeichneten bzw. gerenderten Figuren, welche einfach per Sprachaufnahme zum Leben erweckt werden können:
More Halfbody Cases with Hands;
— OmniHuman-1 AI (@OmniHuman1AI) February 5, 2025
Here, we also provide additional examples specifically showcasing gesture movements. Some input images and audio come from TED, Pexels and AIGC. pic.twitter.com/18nEzr7QFA