OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

// 16:42 Mo, 9. Jan 2023von Thomas Richter

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine mehr oder weniger lange Aufnahme der Originalstimme für eine gute Simulation notwendig. Microsofts OpenAI, bekannt unter anderem durch die bildgenerierende KI DALL-E 2, hat jetzt eine verwandte KI für die Generierung von Sprachaufnahmen vorgestellt. Die große Neuerung dabei ist, daß diese nur eine 3 sekündige Aufnahme der nachzuahmenden Stimme als Prompt benötigt, um dann beliebige Texte auszugeben, die wie von dieser Stimme gesprochen klingen und auch deren Emotionalität reproduzieren kann.

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Möglich ist das durch eine große Menge an Sprachaufzeichnungen, anhand derer VALL-E trainiert wurde, rund 60.000 Stunden von Aufnahmen von rund 7.000 verschiedenen Stimmen in englischer Sprache. Da sich die Variationen unterschiedlicher Stimmen in einem gewissen Spektrum bewegen, kann VALL-E bei einer neu zu simulierenden Stimme einfach auf das gelernte Wissen ähnlicher Stimmen (und deren verschiedener Charakteristiken) zurückgreifen und so die neue Stimme synthetisieren. Interessanterweise nutzt VALL-E zur Komprimierung der Stimmen einen neuralen Audiocodec.

Laut OpenAI zeigen die Versuchsergebnisse, dass VALL-E vergleichbare TTS-(Text-to-Speech) Systeme in Bezug auf die Natürlichkeit der Sprache und die Ähnlichkeit der Sprecher deutlich übertrifft. Außerdem kann VALL-E die Emotionen des Sprechers und die akustische Umgebung des akustischen Prompts in der Synthese weitestgehend bewahren (wie unten im dritten Beispielclip gut zu hören ist). Die Sprachausgabe von VALL- E kann bei gleichem Eingabetext variieren, es lassen sich also eine Vielzahl leicht unterschiedlicher personalisierter Sprachproben synthetisieren.

Sample	Sprachsynthese

// Top-News auf einen Blick:

Auf der Webseite von VALL-E finden sich zahlreiche weitere Beispiele.

Viele Anwendungsmöglichkeiten für eine Stimmensynthese

Die Chancen der neuen Technik sind ebenso wie die Risiken gewaltig - durch die von VALL-E benötigten, nurmehr sehr kurzen Stimmsamples erweitert sich deren Einsatzgebiet nochmals deutlich. Schon jetzt ist es zum Beispiel beim Dubbing von Filmen in einer anderen Sprache möglich, per Sprachsynthese auch für einen anderssprachigen Text die Originalstimme des jeweiligen Schauspielers zu nutzen.

Auch könnten persönliche Assistenten wie Siri oder Alexa mit den Stimmen von beliebigen anderen Menschen mit dem User kommunizieren oder Textnachrichten (seien es SMS oder Whatsapp) in der Stimme des jeweiligen Absenders vorgelesen werden. Ein sehr praktischer Einsatzzweck bietet sich für Menschen, die durch eine Erkrankung (wie z.B. Menschen mit ALS) ihre Stimme verloren haben. Diese könnten dann per Texteingabe mit ihrer eigenen Stimme reden - natürlich vorausgesetzt es existiert altes Trainingsmaterial der Stimme.

Die Gefahr der Manipulation mittels Fake-Stimme

Die Missbrauchsmöglichkeiten einer Stimmsimulationen per VALL-E mittels sehr kurzer Samples sind natürlich auch groß - so könnten beliebig Sprachaufnahmen gefälscht werden, um jemanden - sei es ein bekannter Politiker oder eine Privatperson - zu diskreditieren oder falsche Informationen in Umlauf zu setzen. Ebenso könnten automatisierte Werbeanrufe mit der Stimme der eigenen Mutter oder eines Freundes erfolgen, oder eine noch überzeugendere Version des berüchtigten Enkeltrick-Schockanrufs könnte die Stimme des tatsächlichen Enkels nutzen - welche nur anhand eines kurzen Lockanrufes beim Enkel anhand dessen Sprachsample täuschend echt simuliert werden könnte.

mehr Infos bei
valle-demo.github.io

Auf Socials teilen:

Leserkommentare // Neueste

soulbrother // 06:41 am 11.2.2023

Bin gespannt, wann die ersten Betrugsfälle bekannt werden. Gibt ja z.B. die Gaunerfirmen, die behaupten, man hätte (bei deren Kaltaquiseanruf!) telefonisch ein Abo...weiterlesen

Darth Schneider // 08:43 am 14.1.2023

@bluboy So gesehen hast du natürlich recht. Jede Wette, in 10 bis 20 Jahren können sie Elvis dann einfach so klonen…;)) Aber blöderweise die Supersoldaten und AFD Wähler...weiterlesen

Bluboy // 08:39 am 14.1.2023

Ich stell Dir vor dass Microsoft Ki integriert und bei Eingabe Elvis lebt, der dann tagelang noch nie dagewesene Songs trällert Einfach Toll, ich freu mich schon...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Missbrauchsgefahr Microsoft VALL-E 2: KI ahmt jede Stimme perfekt nach - nur per 3s Stimmsample

Schon vor anderthalb Jahren hatte OpenAI VALL-E veröffentlicht, ein System zur Sprachsynthese, welches anhand eines nur 3 Sekunden langen Samples einer Stimme in der Lage war, ...

// 10:07 Do, 18. Jul 2024von Thomas Richter

News

KIs imitieren Stimmen perfekt - Vorsicht vor anrollenden Betrugswellen

Befürchtet war es ja schon länger - jetzt ist es so weit: Die ersten Telefontrickbetrüger nutzen Stimmen-KIs, um alte Menschen durch einen vorgeblichen Notfall eines ihrer Kinder ....

// 13:16 Do, 9. Mär 2023von Thomas Richter

News

Stimme geklaut? Scarlett Johansson kritisiert OpenAI: ChatGPT spricht wie ich

Scarlett Johansson wollte ihre Stimme nicht für ChatGPT zur Verfügung stellen. Trotzdem klingt eine der ChatGPT 4.0 Stimmen - Sky - ihr zum Verwechseln ähnlich - warum?

// 19:06 Di, 21. Mai 2024von blip

News

Generative KI-Videos 60 Sekunden Clips und konsistente Charaktere - OpenAI Sora vor der Veröffentlichung?

UPDATE 9. Dezember 21:31: OpenAI hat Sora jetzt offiziell vorgestellt und für alle Plus und Pro Abonnenten frei gegeben - hier unsere News mit allen neuen Features, Preisen und ...

// 09:47 Mo, 9. Dez 2024von Rudi Schmidts

News

Gegen Stimmenklau per KI YouTuber verliert Prozess - Bruce Willis Synchronstimme darf nicht geklont werden

Der Schauspieler Manfred Lehmann ist wahrscheinlich nicht vielen Menschen ein Begriff, wohl aber seine Stimme, denn sie ist die Synchronstimme von Gérard Depardieu, Kurt Russell .....

// 14:23 So, 7. Sep 2025von Thomas Richter

zur Newsübersicht >

GPU-Krise 2026 Neue Gerüchte: Nvidia soll die GPU-Produktion 2026 um 30–40% runterfahren

Wie erwartet, weiten sich die direkten und indirekten Folgen der von Sam Altmann verursachten Speicherkrise aus - neben massiv teureren Speichermodulen, PCs und SSDs trifft es ...

// 19:07 Mi, 17. Dez 2025von Thomas Richter

News

KI-Boom trifft SSD-Markt Leak: Samsungs plant SATA-Aus - Kommt der Preisschock auch bei SSDs?

Neuen Gerüchten von MooresLawIsDead zufolge will Samsung aus der Produktion von SATA-SSDs aussteigen; angekündigt werden soll dies im Januar. Ein solcher Schritt hätte kurz- und .....

// 19:11 Mo, 15. Dez 2025von Thomas Richter

News

Anstieg bei Kameraverkäufen Kompaktkameras wieder im Trend - trotz Smartphones

Als im April unerwartet viele DSLMs verkauft wurden - 36% mehr als im Vorjahresmonat -, stellte sich die Frage nach einer möglichen Trendwende auf dem Kameramarkt. Ob sich die ...

// 15:32 Mo, 15. Dez 2025von blip

Test

Nachgefasst Sony FX3 Sensor-Test - Dynamik, Debayering und Rolling Shutter

Die Sony FX3 ist eine der wenigen relevanten Kameras, die wir bislang nicht in unserem Dynamik-Vergleichstest testen konnten - was wir hiermit endlich nachholen wollen.

// 13:51 Mi, 10. Dez 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

Aktuelles

Generative KI Videos OpenAI Sora 2 - Nutzungsrichtlinie entfacht internationalen Urheberrechtsstreit

Die Frage, wie man gesetzlich das Urheberrecht für generative KI-Inhalte regeln soll droht von der normativen Kraft des Faktischen überholt zu werden.

// 17:35 Mo, 20. Okt 2025von Rudi Schmidts

zur Artikelübersicht >

Aktuelle News //

News

GPU-Krise 2026 Neue Gerüchte: Nvidia soll die GPU-Produktion 2026 um 30–40% runterfahren

Wie erwartet, weiten sich die direkten und indirekten Folgen der von Sam Altmann verursachten Speicherkrise aus - neben massiv teureren Speichermodulen, PCs und SSDs trifft es ...

// 19:07 Mi, 17. Dez 2025von Thomas Richter

News

Flaggschiff-Upgrade Nikon Z9 - neue Firmware 5.30 verbessert Autofokus, Motiverkennung und mehr

Nikon hat seiner Flaggschiffkamera Nikon Z9 per Firmware-Update 5.30 eine Vielzahl von Verbesserungen und neuen Funktionen verpasst, die zum Teil von anderen Modellen der Z-Serie ....

// 11:33 Mi, 17. Dez 2025von Thomas Richter

zur Newsübersicht >