[16:42 Mo,9.Januar 2023 [e] von Thomas Richter] |
Es gibt ja schon seit längerem
![]() Möglich ist das durch eine große Menge an Sprachaufzeichnungen, anhand derer VALL-E trainiert wurde, rund 60.000 Stunden von Aufnahmen von rund 7.000 verschiedenen Stimmen in englischer Sprache. Da sich die Variationen unterschiedlicher Stimmen in einem gewissen Spektrum bewegen, kann VALL-E bei einer neu zu simulierenden Stimme einfach auf das gelernte Wissen ähnlicher Stimmen (und deren verschiedener Charakteristiken) zurückgreifen und so die neue Stimme synthetisieren. Interessanterweise nutzt VALL-E zur Komprimierung der Stimmen einen ![]() Laut OpenAI zeigen die Versuchsergebnisse, dass VALL-E vergleichbare TTS-(Text-to-Speech) Systeme in Bezug auf die Natürlichkeit der Sprache und die Ähnlichkeit der Sprecher deutlich übertrifft. Außerdem kann VALL-E die Emotionen des Sprechers und die akustische Umgebung des akustischen Prompts in der Synthese weitestgehend bewahren (wie unten im dritten Beispielclip gut zu hören ist). Die Sprachausgabe von VALL- E kann bei gleichem Eingabetext variieren, es lassen sich also eine Vielzahl leicht unterschiedlicher personalisierter Sprachproben synthetisieren.
Auf der ![]() Viele Anwendungsmöglichkeiten für eine StimmensyntheseDie Chancen der neuen Technik sind ebenso wie die Risiken gewaltig - durch die von VALL-E benötigten, nurmehr sehr kurzen Stimmsamples erweitert sich deren Einsatzgebiet nochmals deutlich. Schon jetzt ist es zum Beispiel beim Dubbing von Filmen in einer anderen Sprache möglich, per Sprachsynthese auch für einen anderssprachigen Text die Originalstimme des jeweiligen Schauspielers zu nutzen. Auch könnten persönliche Assistenten wie Siri oder Alexa mit den Stimmen von beliebigen anderen Menschen mit dem User kommunizieren oder Textnachrichten (seien es SMS oder Whatsapp) in der Stimme des jeweiligen Absenders vorgelesen werden. Ein sehr praktischer Einsatzzweck bietet sich für Menschen, die durch eine Erkrankung (wie z.B. Menschen mit ALS) ihre Stimme verloren haben. Diese könnten dann per Texteingabe mit ihrer eigenen Stimme reden - natürlich vorausgesetzt es existiert altes Trainingsmaterial der Stimme. ![]() Neural Audiocodec Die Gefahr der Manipulation mittels Fake-StimmeDie Missbrauchsmöglichkeiten einer Stimmsimulationen per VALL-E mittels sehr kurzer Samples sind natürlich auch groß - so könnten beliebig Sprachaufnahmen gefälscht werden, um jemanden - sei es ein bekannter Politiker oder eine Privatperson - zu diskreditieren oder falsche Informationen in Umlauf zu setzen. Ebenso könnten automatisierte Werbeanrufe mit der Stimme der eigenen Mutter oder eines Freundes erfolgen, oder eine noch überzeugendere Version des berüchtigten ![]() ![]() |
![]() |