In den letzten Jahren hat der Bereich der KI-Bilderzeugung bemerkenswerte Fortschritte erlebt, die zuletzt vor allem auf Diffusionsmodellen basieren. Solche Modelle wie Stable Diffusion oder Midjourney verdanken ihre Leistungsfähigkeit einem umfangreichen Training mit großflächigen Bilddatensätzen und einem progressiven Generierungsansatz aus Rauschen. Dieser ermöglicht die Erstellung von Bildern mit beispielloser Detailgenauigkeit und Realismus und setzt immer noch fast wöchentlich neue Maßstäbe im Bereich der generativen Modelle.
Die Anwendung von Diffusionsmodellen ist jedoch nicht nur auf Standbilder beschränkt. Ein wachsendes Interesse an der Videogenerierung hat dazu geführt, dass das Potenzial dieser Modelle bei der Erstellung dynamischer und überzeugender visueller Darstellung aktuell gerade überall auf der Welt mit extrem hohen Mittel- (sprich GPU-) Einsatz erforscht wird.
Ein spezielles Gebiet der KI-Videosynthese stellt die Generierung von menschenzentrierten Videos dar, deren Portraits künstlich animiert werden (sog. Talking Heads).

Das Ziel einer gelungenen Talking Head Synthese ist es, Feinheiten in der Vielfalt menschlicher Gesichtsbewegungen glaubhaft zu "erfinden" und darzustellen. Bisherige Ansätze legten dabei oft Einschränkungen für die endgültige Videoausgabe fest, und generieren die Gesichter der Darsteller eher statisch, was steif und unnatürlich wirkt.
// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
Kurz gesagt, dieses Modell erwartet als Input nur ein Portraitfoto und eine Audio-Datei mit Sprache oder Gesang und produziert daraus einen Videoclip, der das Portrait extrem realistisch sprechen oder singen lässt. Einfacher gehts wohl kaum noch, ein Photo zu animieren.
Die bislang präsentierten Ergebnisse sind dabei fast durchgehend gelungen. Auch wenn bei schwierigen Passagen der eine oder andere Fehler sofort ins Auge fällt, gibt es auch in fast jedem Videclip längere Abschnitte, in denen man nicht glauben würde, hier gerade einer KI zuzusehen.
Uns fehlen langsam die Worte für die täglichen Sprünge in der KI-Entwicklung, aber langweilig wird es immerhin bis auf absehbare Zeit wohl eher nicht...