KI synchronisiert Lippenbewegungen mit Audio in Echtzeit

// 14:44 Mi, 23. Sep 2020von Thomas Richter

Der neue DeepLearning Algorithmus "Wav2Lip" eines indischen Forscher-Teams kann die Lippenbewegungen eines Sprechers an die Worte aus einer beliebigen Audioaufnahme in Echtzeit angleichen. Er zeigt schön die ständigen Fortschritte auf, welche die Machine Learning Technologie macht, denn die neue Methode liefert deutlich bessere Ergebnisse als ältere Projekte. Sie funktioniert nicht nur in Echtzeit sondern - und das ist der eigentliche Fortschritt - sie ist auch universeller, denn sie kommt mit jedem Gesicht, jeder Sprache und jeder Stimme zurecht und synchronisiert diese.

Der Nutzen eines solchen Algorithmus für die Arbeit mit Video ist offensichtlich - wie schon im Demovideo gezeigt, kann mit seiner Hilfe die Lippenbewegung einer sprechenden Person in einem Video an eine in einer anderen Sprache erstellte Synchronversion angepasst werden, um die für viele Zuschauer sonst störenden Asynchronizität von Mundbewegungen und Worten zu beseitigen. Praktisch ist das sowohl für nachsynchronisierte Filmversionen als auch für die Lippensynchronisation von Vorlesungen, Pressekonferenzen oder von Figuren animierter Filme in anderen Sprachen.

Und nicht zuletzt könnte diese Technologie auch grundsätzlich dabei helfen, statt O-Ton in szenischen Produktionen die Stimmen in der Postproduktion einfacher per Overdub nutzen zu können. Auch kleinere Sprachfehler (die sonst eine Szene gleich unbrauchbar machen würden) ließen sich hiermit bequem ausbügeln, indem die Lippen mal kurz automatisiert "nachgeführt" werden.

// Top-News auf einen Blick:

Per Deep Learning Algorithmen wäre es so auch denkbar, anderssprachige Versionen von beliebigen Clips zum Beispiel auf YouTube automatisiert anzubieten. Eine automatische Transkription liefert YouTube ja schon jetzt, die nächsten Schritte sind auch schon möglich mithilfe verschiedener Deep Learning Algorithmen: die Übersetzung des transkribierten Textes in eine andere Sprache, die Sprachsynthese mit der Stimme der Originalstimme und dann die Lippensynchronisation des Videos mit dem neuen Ton.

Natürlich kann die Technik aber auch dazu missbraucht werden, um Clips zu generieren, in denen Personen Sachen zu sagen scheinen, die sie nie gesagt haben - das neue Audio kann ebenfalls per neuronalem Netzwerk generiert werden, um die echte Stimme nachzuahmen.

Wie gut der Wav2Lip-Algorithmus ist, kann jeder auf der Demo-Website des Projekts selbst ausprobieren und einen kurzen (maximal 20 Sekunden) Videoclip einer sprechenden Person plus Sprachaudioclip hochladen, um dann eine Ausgabe des neu lippensynchronisierten Clips zu erhalten. Wer mehr ausprobieren will, findet auf GitHub den entsprechenden Programmcode. (Danke an unser Forenmitglied Ruessel für die News)

mehr Infos bei
bhaasha.iiit.ac.in

Auf Socials teilen:

Leserkommentare // Neueste

[9 Leserkommentare] [Kommentar schreiben]

ruessel // 10:34 am 21.9.2020

Hier kann kostenlos gerendert werden: http://bhaasha.iiit.ac.in/l... Einfach Videofile und Tonspur hochladen (limitiert auf 20 Sekunden)

srone // 15:26 am 20.9.2020

ich fürchte wenn es so weitergeht, braucht man bald nichts mehr selberdrehen, du beschreibst der ki alle wesentlichen details deines films et voila, das fertige mp4 landet auf...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Per DeepFake zum Multisprachler: Google entwickelt Übersetzungs-KI zum Dubben von ...

Google hat auf seiner Entwicklerkonferenz unter anderem den - noch experimentellen - "Universal Translator" vorgestellt, einen digitalen Übersetzer, der gleiche mehrere KI-...

// 16:20 Do, 11. Mai 2023von Thomas Richter

News

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: ...

// 10:26 Do, 2. Feb 2023von Thomas Richter

News

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine ...

// 16:42 Mo, 9. Jan 2023von Thomas Richter

News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion .....

// 10:57 Mo, 30. Jan 2023von Thomas Richter

News

Kostenloses KI-Tool FaceFusion 3.0: Gesichter in Videos austauschen - auf dem eigenen PC

Das Ändern des Alters oder der Mimik von Personen in Videos oder die Anpassung der Lippenbewegungen an neue Worte war früher ausschließlich in Hollywood möglich. Mit FaceFusion 3.....

// 11:18 So, 29. Sep 2024von Thomas Richter

zur Newsübersicht >

Das Ende der RAW WARS Blackmagic unterstützt Apple ProRes RAW - nicht nur in Resolve

Dass es irgendwann so kommen musste, war ja fast klar, aber zwei Tage VOR dem Beginn der IBC lässt Blackmagic ziemlich überraschend eine fette Katze aus dem Sack: Das neueste ...

// 09:58 Mi, 10. Sep 2025von Rudi Schmidts

News

Profi-Videofeatures iPhone 17 Pro: ProRes RAW, Genlock, Apple Log 2 und Blackmagic ProDock für Filmer

Apple hat mit dem iPhone 17 Pro und iPhone 17 Pro Max die neueste Generation seiner Pro-iPhone Modelle vorgestellt, die Verbesserungen in den Bereichen Rechenleistung, ...

// 00:30 Mi, 10. Sep 2025von Thomas Richter

News

Direkter FX3 Konkurrent Canon Cinema EOS C50 - Vollformat kompakt mit 7K60p Open Gate RAW Aufzeichnung

Canon ergänzt seine Cinema EOS Reihe um die neue EOS C50. Als bisher kleinste Kamera der Cinema EOS Serie soll sie mit kompakter Bauform und professionellen Funktionen glänzen. ...

// 14:59 Di, 9. Sep 2025von Rudi Schmidts

Test

Neue kompakte Cine-Referenz? Nikon ZR in der Praxis: 6K 50p RED RAW Monster für 2.349,- Euro mit klassenbester Colorscience?

Mit der Nikon ZR präsentiert Nikon die heiß erwartete, erste Version seiner RED RAW Implementierung in einem kompakten Nikon-Vollformat Body. Mit einer UVP von 2.349,- Euro bei 6K ...

// 05:58 Mi, 10. Sep 2025von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

Praxis

Effektives Prompting für KI-Videos mit Adobe Firefly

1.800K bis 20.000K Aputure NOVA II 2x1 - 1.000W LED-Panel mit BLAIR-CG-Engine

Aputure hat auf der IBC 2025 mit dem NOVA II 2x1 ein neues LED-Hochleistungspanel vorgestellt, das auf die Nutzung bei professionellen Film- und Fernsehproduktionen abzielt. Das .....

// 10:14 Sa, 20. Sep 2025von Thomas Richter

News

Medien-Management Überraschung: Kyno 1.9 ist erschienen mit Apple Silicon Support und neuem Design

Seit das Medienmanagement-Tool Kyno vor einigen Jahren von Signiant übernommen wurde, lag das Projekt auf Eis – nach vier Jahren Wartezeit ist zur IBC nun tatsächlich das Update .....

// 15:21 Fr, 19. Sep 2025von blip

zur Newsübersicht >

KI synchronisiert Lippenbewegungen mit Audio in Echtzeit

// Top-News auf einen Blick:

Per DeepFake zum Multisprachler: Google entwickelt Übersetzungs-KI zum Dubben von ...

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Kostenloses KI-Tool FaceFusion 3.0: Gesichter in Videos austauschen - auf dem eigenen PC

Das Ende der RAW WARS Blackmagic unterstützt Apple ProRes RAW - nicht nur in Resolve

Profi-Videofeatures iPhone 17 Pro: ProRes RAW, Genlock, Apple Log 2 und Blackmagic ProDock für Filmer

Direkter FX3 Konkurrent Canon Cinema EOS C50 - Vollformat kompakt mit 7K60p Open Gate RAW Aufzeichnung

Neue kompakte Cine-Referenz? Nikon ZR in der Praxis: 6K 50p RED RAW Monster für 2.349,- Euro mit klassenbester Colorscience?

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Sponsored Workshop Effektives Prompting für KI-Videos mit Adobe Firefly

1.800K bis 20.000K Aputure NOVA II 2x1 - 1.000W LED-Panel mit BLAIR-CG-Engine

Medien-Management Überraschung: Kyno 1.9 ist erschienen mit Apple Silicon Support und neuem Design

ARTIKEL

THEMEN