AI simuliert menschliche Stimmen täuschend echt

// 09:37 So, 26. Mai 2019von Thomas Richter

Das auf AI spezialisierte Unternehmen Dessa hat eine neue Stimmsimulation vorgestellt, die - zumindest bei den bereitgestellten Samples - kaum mehr von einer echten Stimme zu unterscheiden ist. Demonstriert wird dies anhand der Stimme des in den USA sehr bekannten Stand-Up Comedians, Kommentatoren und Podcast Produzenten Joe Rogan in Form eines Youtube Videos mit Sprachbeispielen der synthetisierten Stimme. Dazu gibt es ein eigenes Ratespiel, in dem man verschiedene kurze Sätze anhören und selbst entscheiden kann, ob sie vom echten Rogan stammen oder dem Algorithmus.

Täuschend echte Stimmsimulation

Der neue Algorithmus basiert auf - natürlich - Deep Learning Technologie. Das Modell lernte sogar, Atemzüge und Mundgeräusche an den richtigen Stellen zu erzeugen, um die Stimmsimulation möglichst natürlich klingen zu lassen. Ausgegeben wird Text als Sprache mithilfe des RealTalk Systems. Die Ergebnisse klingen deutlich besser als zum Beispiel die von Lyrebird, einer vor 2 Jahren vorgestellten, ebenfalls per Deep Learning realisierten Stimmensimulation, die behauptet mittels nur 1 Minute Originalaufnahme eine Stimme ausreichend gut imitieren zu können.

Besonders angeboten hat sich die Stimme von Joe Rogan als Demobeispiel vermutlich, weil durch seine u.a. 1.300 Podcasts enorm viel Trainingsmaterial zur Verfügung stand - eine Voraussetzung für funktionierende Machine Learning Algorithmen. Wie gut eine Stimme klingt, für welche weniger Trainingsmaterial zur Verfügung steht wird sich zeigen. Ist die Qualität der simulierten synthetischen Stimme zuverlässig so gut wie in den Beispielen, dann sind bald viele sehr nützliche aber natürlich auch anrüchige Anwendungen denkbar.

Dubbing mit der echten Schauspielerstimme

Bahnbrechend wäre im Bereich Film natürlich die Möglichkeit, die Stimmen der echten Schauspielern einzusetzen, um Dialoge in einer anderen Sprache per Dubbing zu ersetzen. Dazu wäre es natürlich wichtig zu wissen, wie gut die Stimmsimulation in einer anderen Spreche klingt. Und idealerweise würde die Stimmsimulation von einer automatischen Lippensynchronisation begleitet werden bzw. die Lippenbewegungen entsprechend manipulieren.

Praktische Anwendungen

Weitere Anwendungsmöglichkeiten bestünden im Rahmen bereits existierender synthetischer Sprachausgabefunktionen. Diese könnten wesentlich lebendiger gestaltet werden, wenn die Stimme einer bekannten Persönlichkeit oder eines Freundes simuliert wird. Eine Fitness App etwa könnte Anweisungen mit der Stimme Arnold Schwarzeneggers geben. Eine andere Anwendung wäre das automatisierte Vorlesen von Büchern oder Theaterstücken, zum Beispiel auch mit unterschiedlichen bekannten Stimmen für jeden Charakter oder nach Leserwunsch. Ebenso könnte ein persönlicher digitaler Assistent wie Siri oder Alexa Erinnerungen an Termine mit der eigenen Stimme sprechen, um erhört zu werden.

Ein wundervoller Einsatzzweck bietet sich für Menschen, die durch eine Erkrankung (wie z.B. Menschen mit ALS) ihre Stimme verloren haben. Diese könnten dann per Texteingabe mit ihrer eigenen Stimme mit anderen reden - natürlich vorausgesetzt es existiert altes Trainingsmaterial mit der Stimme. Gefundenes Fressen ist so eine Stimmsimulation natürlich auch für die ganz banale Verwendung in kreativen Internet Memes.

// Top-News auf einen Blick:

Die Gefahr der Manipulation mittels Fake-Stimme

Dassa selbst gibt auch einige Beispiele für die Missbrauchsmöglichkeiten solcher Stimmsimulationen - so könnten beliebig Sprachaufnahmen gefälscht werden um jemanden - sei es ein bekannter Politiker oder eine Privatperson - zu diskreditieren. Zusammen mit dem Einsatz von DeepFakes für den Austausch von Gesichtern in Videos könnten durch die Simulation der passenden Stimme glaubhafte Videofälschungen entstehen, vor denen schon seit Jahren gewarnt wird. Ebenso könnten gewinnträchtig (oder zumindest verstörend) automatisierte Werbeanrufe mit der Stimme der eigenen Mutter oder eines Freundes erfolgen. Wegen dieser Gefahren hat sich Dassa entschlossen weder das Modelle noch die Datensätze zu veröffentlichen.

Interessant - ebenso für die positiven wie negativen Anwendungsbeispiele - wäre zu wissen, wieviel Trainingsmaterial der Algorithmus benötigt, um eine Stimme täuschend echt zu simulieren. Wären es nur wenige Minuten, dann wäre die Anwendung um einiges einfacher als wenn viele Stunden benötigt würden. Um allerdings für jemanden, der mit dem jeweiligen Sprecher intim vertraut ist, wirklich überzeugend zu wirken, müssten wohl auch Eigenheiten im Ausdruck sowie die individuelle Wortwahl kopiert werden.

Wann ist die Stimmsimulation verfügbar?

Momentan sind noch einiges an KnowHow, Rechenleistung und Daten notwendig, aber in wenigen Jahren (oder noch kürzerer Zeit) könnte sich die Technologie so weiterentwickeln, dass nur wenige Sekunden Audio benötigt werden, um eine naturgetreue Nachbildung der jeder existierenden Stimme zu erstellen. Und grade im Bereich der auf Deep Learning basierenden Technologien, welche keine hochspezialisierte Algorithmen nutzen, die per Copyright geschützt werden können, dauert es allerdings meist nicht lange, bis eine neue Technik auch in ähnlicher oder sogar besserer Qualität nachgeahmt werden kann und sich dann frei verbreitet. Es ist ist also damit zu rechnen, dass wir nicht nicht lange warten müssen, bis solche täuschend echten synthetischen Stimmen im Alltag auftauchen werden.

Um allerdings wirklich als Ersatz für menschliche Synchronsprecher bei hochwertigen Produktionen zu funktionieren, müsste eine Art (Fein)Steuerung der Stimme möglich sein - also welche Stimmung die Stimme vermitteln soll, welche Worte speziell betont werden sollen oder welche spezielle Stimmung vermittelt werden soll. Soll jedoch ein Film einfach nur schnell und relativ dreckig mit der der Originalstimme in einer anderen Sprache gedubbt werden, bietet sich der Algorithmus für ein automatisches Voice-Over an.

Ist die Simulation eine Gefahr für Synchronsprecher?

So könnte es mittelfristig für Synchronsprecher bzw. Schauspieler schwierig werden, denn es existiert - analog zum Recht am eigenen Bild - kein Recht auf seine eigene Stimme. Nur als Bestandteil des allgemeinen Persönlichkeitsrechts existiert ein Recht auf Tonaufnahmen der eigenen Stimme. Aufzeichnungen mittels einer simulierten Stimme sind davon allerdings nicht betroffen, es gäbe also momentan keine rechtliche Handhabe um gegen jemand vorzugehen, der eine "geklaute" Stimme einsetzt. (Danke an Handiro)

mehr Infos bei
medium.com

Auf Socials teilen:

Leserkommentare // Neueste

Frank B. // 11:47 am 19.7.2019

Wie jetzt? Englisch mit österreichischem, Akzent, Deutsch mit österreichischem Akzent oder wie seine Synchronstimme? Letztere wäre evtl. die erstrebensvertere Variante, aber...weiterlesen

Talker Gott // 18:38 am 18.7.2019

Hallo, sitze im Rollstuhl und kann nur Mithilfe eines Talkers-Sprachgerät sprechen. Alle Stimmen hören sich irgendwie öde an und die meisten Talkerleute sprechen somit gleich...weiterlesen

CandyNinjas // 08:28 am 27.5.2019

WOW !!! Ich bin Joe Roagan Fan und kenne daher seine Stimme sehr gut. Mann-O-Mann, die Sim klingt für mich perfekt! Der totale Wahnsinn !!!

Im Forum mitdiskutieren >>

Ähnliche News //

News

KIs imitieren Stimmen perfekt - Vorsicht vor anrollenden Betrugswellen

Befürchtet war es ja schon länger - jetzt ist es so weit: Die ersten Telefontrickbetrüger nutzen Stimmen-KIs, um alte Menschen durch einen vorgeblichen Notfall eines ihrer Kinder ....

// 13:16 Do, 9. Mär 2023von Thomas Richter

News

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine ...

// 16:42 Mo, 9. Jan 2023von Thomas Richter

News

Gegen Stimmenklau per KI YouTuber verliert Prozess - Bruce Willis Synchronstimme darf nicht geklont werden

Der Schauspieler Manfred Lehmann ist wahrscheinlich nicht vielen Menschen ein Begriff, wohl aber seine Stimme, denn sie ist die Synchronstimme von Gérard Depardieu, Kurt Russell .....

// 14:23 So, 7. Sep 2025von Thomas Richter

News

Stimme geklaut? Scarlett Johansson kritisiert OpenAI: ChatGPT spricht wie ich

Scarlett Johansson wollte ihre Stimme nicht für ChatGPT zur Verfügung stellen. Trotzdem klingt eine der ChatGPT 4.0 Stimmen - Sky - ihr zum Verwechseln ähnlich - warum?

// 19:06 Di, 21. Mai 2024von blip

News

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Generative KIs können mittlerweile Texte erstellen, die wie aus Menschenhand klingen, fotorealistische Bilder aus dem Nichts zaubern und nichtzuletzt - wie schon öfters an dieser ....

// 13:26 So, 21. Mai 2023von blip

zur Newsübersicht >

GPU-Krise 2026 Neue Gerüchte: Nvidia soll die GPU-Produktion 2026 um 30–40% runterfahren

Wie erwartet, weiten sich die direkten und indirekten Folgen der von Sam Altmann verursachten Speicherkrise aus - neben massiv teureren Speichermodulen, PCs und SSDs trifft es ...

// 19:07 Mi, 17. Dez 2025von Thomas Richter

News

KI-Boom trifft SSD-Markt Leak: Samsungs plant SATA-Aus - Kommt der Preisschock auch bei SSDs?

Neuen Gerüchten von MooresLawIsDead zufolge will Samsung aus der Produktion von SATA-SSDs aussteigen; angekündigt werden soll dies im Januar. Ein solcher Schritt hätte kurz- und .....

// 19:11 Mo, 15. Dez 2025von Thomas Richter

News

Anstieg bei Kameraverkäufen Kompaktkameras wieder im Trend - trotz Smartphones

Als im April unerwartet viele DSLMs verkauft wurden - 36% mehr als im Vorjahresmonat -, stellte sich die Frage nach einer möglichen Trendwende auf dem Kameramarkt. Ob sich die ...

// 15:32 Mo, 15. Dez 2025von blip

Test

Nachgefasst Sony FX3 Sensor-Test - Dynamik, Debayering und Rolling Shutter

Die Sony FX3 ist eine der wenigen relevanten Kameras, die wir bislang nicht in unserem Dynamik-Vergleichstest testen konnten - was wir hiermit endlich nachholen wollen.

// 13:51 Mi, 10. Dez 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

zur Artikelübersicht >

Aktuelle News //

News

GPU-Krise 2026 Neue Gerüchte: Nvidia soll die GPU-Produktion 2026 um 30–40% runterfahren

Wie erwartet, weiten sich die direkten und indirekten Folgen der von Sam Altmann verursachten Speicherkrise aus - neben massiv teureren Speichermodulen, PCs und SSDs trifft es ...

// 19:07 Mi, 17. Dez 2025von Thomas Richter

News

Flaggschiff-Upgrade Nikon Z9 - neue Firmware 5.30 verbessert Autofokus, Motiverkennung und mehr

Nikon hat seiner Flaggschiffkamera Nikon Z9 per Firmware-Update 5.30 eine Vielzahl von Verbesserungen und neuen Funktionen verpasst, die zum Teil von anderen Modellen der Z-Serie ....

// 11:33 Mi, 17. Dez 2025von Thomas Richter

zur Newsübersicht >