Eine Forschungsgruppe bei Microsoft hat ein neues KI-Framework namens VASA-1 vorgestellt, das die Generierung lebensechter, sprechender Gesichter mit auffällig ansprechenden visuellen Fähigkeiten ermöglicht. Das Framework benötigt als Input lediglich ein statisches Bild und einen Sprach-Audioclip als Eingabe.
Gegenüber anderen Modellen geht VASA-1 jedoch über einfache Lippenbewegungen hinaus und generiert ein breites Spektrum von Gesichts-Nuancen und natürlichen Kopfbewegungen. Unter der Haube von VASA-1 arbeitet ein ganzheitliches Modell zur Generierung von Gesichtsdynamiken und Kopfbewegungen, das auf einem explizit hierfür trainierten Latent Space für Gesichter basiert.

Die erzeugten Videos zeigen eine neue Qualität von realistischen Gesichts- und Kopfbewegungen und können online mit einer Auflösung von 512x512 Pixeln und bis zu 40 Bildern pro Sekunde generiert werden - bei äußerst geringer Startlatenz. Äußerst bemerkenswert sind zudem die Manipulationsmöglichkeiten hinsichtlich Blickrichtung, Framing und Emotionen (!!).
Die Forscher betonen dabei noch einmal besonders, dass alle generierten Porträtbilder virtuell sind und keine realen Personen darstellen. Sie betonen zudem, dass sie sich der Verantwortung bei der Anwendung von KI bewusst sind und wollen auf das positive Potenzial ihrer Technik für Bildung, Zugänglichkeit und therapeutische Unterstützung hinweisen. Auch ein ebenso enormes Potential für die Zukunft von interaktiven, lebensechten Avataren wird hierbei deutlich angesprochen.
Die folgende Demonstration zeigt, wie sich VASA-1 theoretisch sogar bei Videokonferenzen in Echtzeit nutzen ließe:
// Top-News auf einen Blick:
- Erste Black Friday Angebote von Atomos, Nanlite, DZOFILM und mehr
- SanDisk stellt Extreme Fit vor: Aktuell kleinster 1TB USB-C-Speicherstick
- Apple plant OLED-MacBook Pro, Mac Studio M6 Ultra und Mini-LED Studio Display
- DJI Avata 360 - Leaks zeigen DJIs neue 360°-Drohne
- ARRIs Color KnowHow könnte Millionen Wert sein - als Workflow Lizenz für Dritte
- Canon EOS C50 im Praxistest: Kompaktes Arbeitstier mit 7K 50p Raw - die neue FX3 Konkurrenz
Um Missbrauch auszuschließen, gäbe es jedoch derzeit keine Pläne, Demos, APIs oder Produkte zu veröffentlichen, bevor nicht sichergestellt ist, dass die Technologie verantwortungsvoll und regulierungskonform genutzt werden kann.
Tatsächlich lässt sich bei vielen gezeigten Beispielen nur bei sehr genauem hinsehen erkennen, dass es sich um künstlich generierte Avatare handelt - und nicht um echte Menschen.


















