Logo Logo
/// News

KI synchronisiert Lippenbewegungen mit Audio in Echtzeit

[14:44 Mi,23.September 2020 [e]  von ]    

Der neue DeepLearning Algorithmus "Wav2Lip" eines indischen Forscher-Teams kann die Lippenbewegungen eines Sprechers an die Worte aus einer beliebigen Audioaufnahme in Echtzeit angleichen. Er zeigt schön die ständigen Fortschritte auf, welche die Machine Learning Technologie macht, denn die neue Methode liefert deutlich bessere Ergebnisse als ältere Projekte. Sie funktioniert nicht nur in Echtzeit sondern - und das ist der eigentliche Fortschritt - sie ist auch universeller, denn sie kommt mit jedem Gesicht, jeder Sprache und jeder Stimme zurecht und synchronisiert diese.





Der Nutzen eines solchen Algorithmus für die Arbeit mit Video ist offensichtlich - wie schon im Demovideo gezeigt, kann mit seiner Hilfe die Lippenbewegung einer sprechenden Person in einem Video an eine in einer anderen Sprache erstellte Synchronversion angepasst werden, um die für viele Zuschauer sonst störenden Asynchronizität von Mundbewegungen und Worten zu beseitigen. Praktisch ist das sowohl für nachsynchronisierte Filmversionen als auch für die Lippensynchronisation von Vorlesungen, Pressekonferenzen oder von Figuren animierter Filme in anderen Sprachen.

Und nicht zuletzt könnte diese Technologie auch grundsätzlich dabei helfen, statt O-Ton in szenischen Produktionen die Stimmen in der Postproduktion einfacher per Overdub nutzen zu können. Auch kleinere Sprachfehler (die sonst eine Szene gleich unbrauchbar machen würden) ließen sich hiermit bequem ausbügeln, indem die Lippen mal kurz automatisiert "nachgeführt" werden.

Wav2Lip-Schema
Wav2Lip Algorithmus


Per Deep Learning Algorithmen wäre es so auch denkbar, anderssprachige Versionen von beliebigen Clips zum Beispiel auf YouTube automatisiert anzubieten. Eine automatische Transkription liefert YouTube ja schon jetzt, die nächsten Schritte sind auch schon möglich mithilfe verschiedener Deep Learning Algorithmen: die Übersetzung des transkribierten Textes in eine andere Sprache, die Sprachsynthese mit der Stimme der Originalstimme und dann die Lippensynchronisation des Videos mit dem neuen Ton.

Natürlich kann die Technik aber auch dazu missbraucht werden, um Clips zu generieren, in denen Personen Sachen zu sagen scheinen, die sie nie gesagt haben - das neue Audio kann ebenfalls per neuronalem Netzwerk generiert werden, um die echte Stimme nachzuahmen.

Wie gut der Wav2Lip-Algorithmus ist, kann jeder auf der Demo-Website des Projekts selbst ausprobieren und einen kurzen (maximal 20 Sekunden) Videoclip einer sprechenden Person plus Sprachaudioclip hochladen, um dann eine Ausgabe des neu lippensynchronisierten Clips zu erhalten. Wer mehr ausprobieren will, findet auf GitHub den entsprechenden Programmcode. (Danke an unser Forenmitglied Ruessel für die News)

Link mehr Informationen bei bhaasha.iiit.ac.in

  
[9 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
ruessel    10:34 am 21.9.2020
Hier kann kostenlos gerendert werden: http://bhaasha.iiit.ac.in/lipsync/ Einfach Videofile und Tonspur hochladen (limitiert auf 20 Sekunden)
srone    15:26 am 20.9.2020
ich fürchte wenn es so weitergeht, braucht man bald nichts mehr selberdrehen, du beschreibst der ki alle wesentlichen details deines films et voila, das fertige mp4 landet auf...weiterlesen
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildZwei neue Flexscan Monitore mit USB-C von Eizo: EV2795 und EV2495 bildCanon Cinema EOS C70 - S35 RF-Mount mit optionalem EF-Speedbooster


verwandte Newsmeldungen:
Sound:

Aus Text wird nun auch Audio: Stable Audio generiert Musik und Soundeffekte per KI 18.September 2023
Grass Valley kündigt EDIUS 11 an mit KI-Funktionen, neuem Audio Editor und mehr 15.September 2023
Wenn du nur 1 Mikro wählen könntest: Richtrohr, kompaktes Kondensator oder Lavalier? 29.August 2023
YouTube integriert automatisches Audio-Dubbing per KI 31.Juli 2023
RØDE PodMic USB: Studio-Mikrofon mit XLR und USB 25.Mai 2023
Professionellere RED KOMODO-X vorgestellt mit 6K 80p und Mikro-V-Lock 17.Mai 2023
Deity PR-2 Pocket Audio Recorder: 32-Bit FloatAufnahme und Vorverstärker 12.Mai 2023
alle Newsmeldungen zum Thema Sound

KI:

Google zeigt KI-Bullet-Time Effekt inkl. Slow Motion, Blur und Stabilizer - DynIBaR 30.September 2023
Drehbuchstreik in Hollywood endet nach 148 Tagen mit gutem Deal für Autoren - auch in Punkto KI 27.September 2023
Google Pixel 8 (Pro) - Neue Stufe der "computational" Videografie durch KI? 25.September 2023
YouTube: neue Editing-App verfügbar - und bald kommen die Video-KI-Tools 22.September 2023
DALL-E 3 ist da und generiert exaktere KI-Bilder inkl. Text dank ChatGPT-Integration 21.September 2023
Videoclip: Adobe Premiere Pro erklärt: Mit KI Pausen und Füllwörter schnell entfernen u.v.m. 19.September 2023
Adobe führt Credit-basiertes Modell für generative KI ein (und die Creative Cloud wird teurer) 18.September 2023
alle Newsmeldungen zum Thema KI


[nach oben]

















passende Forenbeiträge zur News:

Archive

2023

Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2022
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 2.Oktober 2023 - 16:54
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*