Logo
/// News

AI simuliert menschliche Stimmen täuschend echt

[09:37 So,26.Mai 2019 [e]  von ]    

Das auf AI spezialisierte Unternehmen Dessa hat eine neue Stimmsimulation vorgestellt, die - zumindest bei den bereitgestellten Samples - kaum mehr von einer echten Stimme zu unterscheiden ist. Demonstriert wird dies anhand der Stimme des in den USA sehr bekannten Stand-Up Comedians, Kommentatoren und Podcast Produzenten Joe Rogan in Form eines Youtube Videos mit Sprachbeispielen der synthetisierten Stimme. Dazu gibt es ein eigenes Ratespiel, in dem man verschiedene kurze Sätze anhören und selbst entscheiden kann, ob sie vom echten Rogan stammen oder dem Algorithmus.



Täuschend echte Stimmsimulation
Der neue Algorithmus basiert auf - natürlich - Deep Learning Technologie. Das Modell lernte sogar, Atemzüge und Mundgeräusche an den richtigen Stellen zu erzeugen, um die Stimmsimulation möglichst natürlich klingen zu lassen. Ausgegeben wird Text als Sprache mithilfe des RealTalk Systems. Die Ergebnisse klingen deutlich besser als zum Beispiel die von Lyrebird, einer vor 2 Jahren vorgestellten, ebenfalls per Deep Learning realisierten Stimmensimulation, die behauptet mittels nur 1 Minute Originalaufnahme eine Stimme ausreichend gut imitieren zu können.

Besonders angeboten hat sich die Stimme von Joe Rogan als Demobeispiel vermutlich, weil durch seine u.a. 1.300 Podcasts enorm viel Trainingsmaterial zur Verfügung stand - eine Voraussetzung für funktionierende Machine Learning Algorithmen. Wie gut eine Stimme klingt, für welche weniger Trainingsmaterial zur Verfügung steht wird sich zeigen. Ist die Qualität der simulierten synthetischen Stimme zuverlässig so gut wie in den Beispielen, dann sind bald viele sehr nützliche aber natürlich auch anrüchige Anwendungen denkbar.

Dubbing mit der echten Schauspielerstimme
Bahnbrechend wäre im Bereich Film natürlich die Möglichkeit, die Stimmen der echten Schauspielern einzusetzen, um Dialoge in einer anderen Sprache per Dubbing zu ersetzen. Dazu wäre es natürlich wichtig zu wissen, wie gut die Stimmsimulation in einer anderen Spreche klingt. Und idealerweise würde die Stimmsimulation von einer automatischen Lippensynchronisation begleitet werden bzw. die Lippenbewegungen entsprechend manipulieren.

Praktische Anwendungen
Weitere Anwendungsmöglichkeiten bestünden im Rahmen bereits existierender synthetischer Sprachausgabefunktionen. Diese könnten wesentlich lebendiger gestaltet werden, wenn die Stimme einer bekannten Persönlichkeit oder eines Freundes simuliert wird. Eine Fitness App etwa könnte Anweisungen mit der Stimme Arnold Schwarzeneggers geben. Eine andere Anwendung wäre das automatisierte Vorlesen von Büchern oder Theaterstücken, zum Beispiel auch mit unterschiedlichen bekannten Stimmen für jeden Charakter oder nach Leserwunsch. Ebenso könnte ein persönlicher digitaler Assistent wie Siri oder Alexa Erinnerungen an Termine mit der eigenen Stimme sprechen, um erhört zu werden.

Ein wundervoller Einsatzzweck bietet sich für Menschen, die durch eine Erkrankung (wie z.B. Menschen mit ALS) ihre Stimme verloren haben. Diese könnten dann per Texteingabe mit ihrer eigenen Stimme mit anderen reden - natürlich vorausgesetzt es existiert altes Trainingsmaterial mit der Stimme. Gefundenes Fressen ist so eine Stimmsimulation natürlich auch für die ganz banale Verwendung in kreativen Internet Memes.

Die Gefahr der Manipulation mittels Fake-Stimme
Dassa selbst gibt auch einige Beispiele für die Missbrauchsmöglichkeiten solcher Stimmsimulationen - so könnten beliebig Sprachaufnahmen gefälscht werden um jemanden - sei es ein bekannter Politiker oder eine Privatperson - zu diskreditieren. Zusammen mit dem Einsatz von DeepFakes für den Austausch von Gesichtern in Videos könnten durch die Simulation der passenden Stimme glaubhafte Videofälschungen entstehen, vor denen schon seit Jahren gewarnt wird. Ebenso könnten gewinnträchtig (oder zumindest verstörend) automatisierte Werbeanrufe mit der Stimme der eigenen Mutter oder eines Freundes erfolgen. Wegen dieser Gefahren hat sich Dassa entschlossen weder das Modelle noch die Datensätze zu veröffentlichen.

Interessant - ebenso für die positiven wie negativen Anwendungsbeispiele - wäre zu wissen, wieviel Trainingsmaterial der Algorithmus benötigt, um eine Stimme täuschend echt zu simulieren. Wären es nur wenige Minuten, dann wäre die Anwendung um einiges einfacher als wenn viele Stunden benötigt würden. Um allerdings für jemanden, der mit dem jeweiligen Sprecher intim vertraut ist, wirklich überzeugend zu wirken, müssten wohl auch Eigenheiten im Ausdruck sowie die individuelle Wortwahl kopiert werden.

Wann ist die Stimmsimulation verfügbar?
Momentan sind noch einiges an KnowHow, Rechenleistung und Daten notwendig, aber in wenigen Jahren (oder noch kürzerer Zeit) könnte sich die Technologie so weiterentwickeln, dass nur wenige Sekunden Audio benötigt werden, um eine naturgetreue Nachbildung der jeder existierenden Stimme zu erstellen. Und grade im Bereich der auf Deep Learning basierenden Technologien, welche keine hochspezialisierte Algorithmen nutzen, die per Copyright geschützt werden können, dauert es allerdings meist nicht lange, bis eine neue Technik auch in ähnlicher oder sogar besserer Qualität nachgeahmt werden kann und sich dann frei verbreitet. Es ist ist also damit zu rechnen, dass wir nicht nicht lange warten müssen, bis solche täuschend echten synthetischen Stimmen im Alltag auftauchen werden.

Rogen-Robot


Um allerdings wirklich als Ersatz für menschliche Synchronsprecher bei hochwertigen Produktionen zu funktionieren, müsste eine Art (Fein)Steuerung der Stimme möglich sein - also welche Stimmung die Stimme vermitteln soll, welche Worte speziell betont werden sollen oder welche spezielle Stimmung vermittelt werden soll. Soll jedoch ein Film einfach nur schnell und relativ dreckig mit der der Originalstimme in einer anderen Sprache gedubbt werden, bietet sich der Algorithmus für ein automatisches Voice-Over an.

Ist die Simulation eine Gefahr für Synchronsprecher?
So könnte es mittelfristig für Synchronsprecher bzw. Schauspieler schwierig werden, denn es existiert - analog zum Recht am eigenen Bild - kein Recht auf seine eigene Stimme. Nur als Bestandteil des allgemeinen Persönlichkeitsrechts existiert ein Recht auf Tonaufnahmen der eigenen Stimme. Aufzeichnungen mittels einer simulierten Stimme sind davon allerdings nicht betroffen, es gäbe also momentan keine rechtliche Handhabe um gegen jemand vorzugehen, der eine "geklaute" Stimme einsetzt. (Danke an Handiro)

Link mehr Informationen bei medium.com

  
[4 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
CandyNinjas    08:28 am 27.5.2019
WOW !!! Ich bin Joe Roagan Fan und kenne daher seine Stimme sehr gut. Mann-O-Mann, die Sim klingt für mich perfekt! Der totale Wahnsinn !!!
Darth Schneider    07:40 am 27.5.2019
...Zum Glück hatte Stallone einen so guten deutschen Synchronsprecher, auf englisch konnte man sein Gelaber ja zumindest früher bei den guten Filmen kaum verstehen. Ich mag mich...weiterlesen
Hayos    06:06 am 27.5.2019
Sehr sehr cool. Gerade beim Thema Synchronstimmen fällt mir ein aktueller Anwendungszweck ein: Thomas Danneberg, der geniale Sprecher von Terence Hill, Arnold, Sly, Travolta.....weiterlesen
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildDJI Osmo Pocket: Firmware Update bringt Hyperlapse Zeitraffer bildNetflix eröffnet Büro in Berlin


verwandte Newsmeldungen:


[nach oben]

















passende Forenbeiträge zur News:

Archive

2019

Juni - Mai - April - März - Februar - Januar

2018
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000




































Specialsschraeg
27. Juni - 6. Juli / München
Filmfest München
11-14. Juli / Ludwigsburg
NaturVision Filmfestival
8-12. August / Weiterstadt
Open Air Filmfest Weiterstadt
10-20. August / Oestrich-Winkel
Kurzfilmfestival Shorts at Moonlight
alle Termine und Einreichfristen


update am 26.Juni 2019 - 15:02
slashCAM
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*