AI simuliert menschliche Stimmen täuschend echt

// 09:37 So, 26. Mai 2019von

Das auf AI spezialisierte Unternehmen Dessa hat eine neue Stimmsimulation vorgestellt, die - zumindest bei den bereitgestellten Samples - kaum mehr von einer echten Stimme zu unterscheiden ist. Demonstriert wird dies anhand der Stimme des in den USA sehr bekannten Stand-Up Comedians, Kommentatoren und Podcast Produzenten Joe Rogan in Form eines Youtube Videos mit Sprachbeispielen der synthetisierten Stimme. Dazu gibt es ein eigenes Ratespiel, in dem man verschiedene kurze Sätze anhören und selbst entscheiden kann, ob sie vom echten Rogan stammen oder dem Algorithmus.



Täuschend echte Stimmsimulation

Der neue Algorithmus basiert auf - natürlich - Deep Learning Technologie. Das Modell lernte sogar, Atemzüge und Mundgeräusche an den richtigen Stellen zu erzeugen, um die Stimmsimulation möglichst natürlich klingen zu lassen. Ausgegeben wird Text als Sprache mithilfe des RealTalk Systems. Die Ergebnisse klingen deutlich besser als zum Beispiel die von Lyrebird, einer vor 2 Jahren vorgestellten, ebenfalls per Deep Learning realisierten Stimmensimulation, die behauptet mittels nur 1 Minute Originalaufnahme eine Stimme ausreichend gut imitieren zu können.




Besonders angeboten hat sich die Stimme von Joe Rogan als Demobeispiel vermutlich, weil durch seine u.a. 1.300 Podcasts enorm viel Trainingsmaterial zur Verfügung stand - eine Voraussetzung für funktionierende Machine Learning Algorithmen. Wie gut eine Stimme klingt, für welche weniger Trainingsmaterial zur Verfügung steht wird sich zeigen. Ist die Qualität der simulierten synthetischen Stimme zuverlässig so gut wie in den Beispielen, dann sind bald viele sehr nützliche aber natürlich auch anrüchige Anwendungen denkbar.




Dubbing mit der echten Schauspielerstimme

Bahnbrechend wäre im Bereich Film natürlich die Möglichkeit, die Stimmen der echten Schauspielern einzusetzen, um Dialoge in einer anderen Sprache per Dubbing zu ersetzen. Dazu wäre es natürlich wichtig zu wissen, wie gut die Stimmsimulation in einer anderen Spreche klingt. Und idealerweise würde die Stimmsimulation von einer automatischen Lippensynchronisation begleitet werden bzw. die Lippenbewegungen entsprechend manipulieren.




Praktische Anwendungen

Weitere Anwendungsmöglichkeiten bestünden im Rahmen bereits existierender synthetischer Sprachausgabefunktionen. Diese könnten wesentlich lebendiger gestaltet werden, wenn die Stimme einer bekannten Persönlichkeit oder eines Freundes simuliert wird. Eine Fitness App etwa könnte Anweisungen mit der Stimme Arnold Schwarzeneggers geben. Eine andere Anwendung wäre das automatisierte Vorlesen von Büchern oder Theaterstücken, zum Beispiel auch mit unterschiedlichen bekannten Stimmen für jeden Charakter oder nach Leserwunsch. Ebenso könnte ein persönlicher digitaler Assistent wie Siri oder Alexa Erinnerungen an Termine mit der eigenen Stimme sprechen, um erhört zu werden.



Ein wundervoller Einsatzzweck bietet sich für Menschen, die durch eine Erkrankung (wie z.B. Menschen mit ALS) ihre Stimme verloren haben. Diese könnten dann per Texteingabe mit ihrer eigenen Stimme mit anderen reden - natürlich vorausgesetzt es existiert altes Trainingsmaterial mit der Stimme. Gefundenes Fressen ist so eine Stimmsimulation natürlich auch für die ganz banale Verwendung in kreativen Internet Memes.




Die Gefahr der Manipulation mittels Fake-Stimme

Dassa selbst gibt auch einige Beispiele für die Missbrauchsmöglichkeiten solcher Stimmsimulationen - so könnten beliebig Sprachaufnahmen gefälscht werden um jemanden - sei es ein bekannter Politiker oder eine Privatperson - zu diskreditieren. Zusammen mit dem Einsatz von DeepFakes für den Austausch von Gesichtern in Videos könnten durch die Simulation der passenden Stimme glaubhafte Videofälschungen entstehen, vor denen schon seit Jahren gewarnt wird. Ebenso könnten gewinnträchtig (oder zumindest verstörend) automatisierte Werbeanrufe mit der Stimme der eigenen Mutter oder eines Freundes erfolgen. Wegen dieser Gefahren hat sich Dassa entschlossen weder das Modelle noch die Datensätze zu veröffentlichen.



Interessant - ebenso für die positiven wie negativen Anwendungsbeispiele - wäre zu wissen, wieviel Trainingsmaterial der Algorithmus benötigt, um eine Stimme täuschend echt zu simulieren. Wären es nur wenige Minuten, dann wäre die Anwendung um einiges einfacher als wenn viele Stunden benötigt würden. Um allerdings für jemanden, der mit dem jeweiligen Sprecher intim vertraut ist, wirklich überzeugend zu wirken, müssten wohl auch Eigenheiten im Ausdruck sowie die individuelle Wortwahl kopiert werden.






Wann ist die Stimmsimulation verfügbar?

Momentan sind noch einiges an KnowHow, Rechenleistung und Daten notwendig, aber in wenigen Jahren (oder noch kürzerer Zeit) könnte sich die Technologie so weiterentwickeln, dass nur wenige Sekunden Audio benötigt werden, um eine naturgetreue Nachbildung der jeder existierenden Stimme zu erstellen. Und grade im Bereich der auf Deep Learning basierenden Technologien, welche keine hochspezialisierte Algorithmen nutzen, die per Copyright geschützt werden können, dauert es allerdings meist nicht lange, bis eine neue Technik auch in ähnlicher oder sogar besserer Qualität nachgeahmt werden kann und sich dann frei verbreitet. Es ist ist also damit zu rechnen, dass wir nicht nicht lange warten müssen, bis solche täuschend echten synthetischen Stimmen im Alltag auftauchen werden.



Um allerdings wirklich als Ersatz für menschliche Synchronsprecher bei hochwertigen Produktionen zu funktionieren, müsste eine Art (Fein)Steuerung der Stimme möglich sein - also welche Stimmung die Stimme vermitteln soll, welche Worte speziell betont werden sollen oder welche spezielle Stimmung vermittelt werden soll. Soll jedoch ein Film einfach nur schnell und relativ dreckig mit der der Originalstimme in einer anderen Sprache gedubbt werden, bietet sich der Algorithmus für ein automatisches Voice-Over an.




Ist die Simulation eine Gefahr für Synchronsprecher?

So könnte es mittelfristig für Synchronsprecher bzw. Schauspieler schwierig werden, denn es existiert - analog zum Recht am eigenen Bild - kein Recht auf seine eigene Stimme. Nur als Bestandteil des allgemeinen Persönlichkeitsrechts existiert ein Recht auf Tonaufnahmen der eigenen Stimme. Aufzeichnungen mittels einer simulierten Stimme sind davon allerdings nicht betroffen, es gäbe also momentan keine rechtliche Handhabe um gegen jemand vorzugehen, der eine "geklaute" Stimme einsetzt. (Danke an Handiro)



Leserkommentare // Neueste
Frank B.  //  11:47 am 19.7.2019
Wie jetzt? Englisch mit österreichischem, Akzent, Deutsch mit österreichischem Akzent oder wie seine Synchronstimme? Letztere wäre evtl. die erstrebensvertere Variante, aber...weiterlesen
Talker Gott  //  18:38 am 18.7.2019
Hallo, sitze im Rollstuhl und kann nur Mithilfe eines Talkers-Sprachgerät sprechen. Alle Stimmen hören sich irgendwie öde an und die meisten Talkerleute sprechen somit gleich...weiterlesen
CandyNinjas  //  08:28 am 27.5.2019
WOW !!! Ich bin Joe Roagan Fan und kenne daher seine Stimme sehr gut. Mann-O-Mann, die Sim klingt für mich perfekt! Der totale Wahnsinn !!!
Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash