Erweckte Standbilder EMO - KI lässt Portraits sprechen und singen

// 15:04 Do, 29. Feb 2024von Rudi Schmidts

In den letzten Jahren hat der Bereich der KI-Bilderzeugung bemerkenswerte Fortschritte erlebt, die zuletzt vor allem auf Diffusionsmodellen basieren. Solche Modelle wie Stable Diffusion oder Midjourney verdanken ihre Leistungsfähigkeit einem umfangreichen Training mit großflächigen Bilddatensätzen und einem progressiven Generierungsansatz aus Rauschen. Dieser ermöglicht die Erstellung von Bildern mit beispielloser Detailgenauigkeit und Realismus und setzt immer noch fast wöchentlich neue Maßstäbe im Bereich der generativen Modelle.

Die Anwendung von Diffusionsmodellen ist jedoch nicht nur auf Standbilder beschränkt. Ein wachsendes Interesse an der Videogenerierung hat dazu geführt, dass das Potenzial dieser Modelle bei der Erstellung dynamischer und überzeugender visueller Darstellung aktuell gerade überall auf der Welt mit extrem hohen Mittel- (sprich GPU-) Einsatz erforscht wird.

Ein spezielles Gebiet der KI-Videosynthese stellt die Generierung von menschenzentrierten Videos dar, deren Portraits künstlich animiert werden (sog. Talking Heads).

AI EMO makes still image portraits speak and sing — KI EMO lässt Standbild-Portraits sprechen und singen

Das Ziel einer gelungenen Talking Head Synthese ist es, Feinheiten in der Vielfalt menschlicher Gesichtsbewegungen glaubhaft zu "erfinden" und darzustellen. Bisherige Ansätze legten dabei oft Einschränkungen für die endgültige Videoausgabe fest, und generieren die Gesichter der Darsteller eher statisch, was steif und unnatürlich wirkt.

// Top-News auf einen Blick:

Ein chinesisches Forschungsteam aus dem Kreis der Alibaba Group, hat nun ein innovatives KI-Talking Head-Framework vorgestellt (EMO - Emote Portrait Alive), welches nicht nur ein breites Spektrum realistischer Gesichtsausdrücke mit viel Bewegung, einschließlich nuancierter Mikroausdrücke erzeugen kann. Auch werden die Emotionen für die Animation direkt aus der Audiodatei "extrahiert".

Kurz gesagt, dieses Modell erwartet als Input nur ein Portraitfoto und eine Audio-Datei mit Sprache oder Gesang und produziert daraus einen Videoclip, der das Portrait extrem realistisch sprechen oder singen lässt. Einfacher gehts wohl kaum noch, ein Photo zu animieren.

Die bislang präsentierten Ergebnisse sind dabei fast durchgehend gelungen. Auch wenn bei schwierigen Passagen der eine oder andere Fehler sofort ins Auge fällt, gibt es auch in fast jedem Videclip längere Abschnitte, in denen man nicht glauben würde, hier gerade einer KI zuzusehen.

Uns fehlen langsam die Worte für die täglichen Sprünge in der KI-Entwicklung, aber langweilig wird es immerhin bis auf absehbare Zeit wohl eher nicht...

mehr Infos bei
humanaigc.github.io

Auf Socials teilen:

Erweckte Standbilder EMO - KI lässt Portraits sprechen und singen

// Top-News auf einen Blick:

Kostenlose Bildgenerierung per KI: Stable Diffusion jetzt mit einfachem Installer

Microsoft Olive: Neues kostenloses Tool verdoppelt Performance von Stable Diffusion

Bild-KI Midjourney V5 liefert fotorealistische Bilder - und endlich auch korrekte ...

Pro Bild nur 15 Sekunden: Stable Diffusion läuft auf Smartphone

KI Bilder mit Stable Diffusion jetzt auch direkt in Photoshop und Gimp erzeugen

Viele Verbesserungen Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes

E-Mount Zoom Sony stellt FE 50-150mm F2 GM Zoom für Pros vor: Lichtstark, leicht und hochpreisig

Universeller Speicher Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Die Stable Diffusion Revolution: Kostenlose Bildgenerierung per KI jetzt auch auf dem Heim-PC

Stable Diffusion - Tipps und Tricks - Teil 1 - Einrichtung und Einstieg

Nach 25 Jahren wiederbelebt Günstige RF Kit-Zoomoptik - Canon RF 75-300 mm F4.0-5.6

Das Ende einer Ära DJI beendet Support für Phantom 4 Pro und Advanced

ARTIKEL

THEMEN