Logo Logo
/// News

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

[16:42 Mo,9.Januar 2023 [e]  von ]    

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine mehr oder weniger lange Aufnahme der Originalstimme für eine gute Simulation notwendig. Microsofts OpenAI, bekannt unter anderem durch die bildgenerierende KI DALL-E 2, hat jetzt eine verwandte KI für die Generierung von Sprachaufnahmen vorgestellt. Die große Neuerung dabei ist, daß diese nur eine 3 sekündige Aufnahme der nachzuahmenden Stimme als Prompt benötigt, um dann beliebige Texte auszugeben, die wie von dieser Stimme gesprochen klingen und auch deren Emotionalität reproduzieren kann.


VALL-E-Overview


Möglich ist das durch eine große Menge an Sprachaufzeichnungen, anhand derer VALL-E trainiert wurde, rund 60.000 Stunden von Aufnahmen von rund 7.000 verschiedenen Stimmen in englischer Sprache. Da sich die Variationen unterschiedlicher Stimmen in einem gewissen Spektrum bewegen, kann VALL-E bei einer neu zu simulierenden Stimme einfach auf das gelernte Wissen ähnlicher Stimmen (und deren verschiedener Charakteristiken) zurückgreifen und so die neue Stimme synthetisieren. Interessanterweise nutzt VALL-E zur Komprimierung der Stimmen einen neuralen Audiocodec.

Laut OpenAI zeigen die Versuchsergebnisse, dass VALL-E vergleichbare TTS-(Text-to-Speech) Systeme in Bezug auf die Natürlichkeit der Sprache und die Ähnlichkeit der Sprecher deutlich übertrifft. Außerdem kann VALL-E die Emotionen des Sprechers und die akustische Umgebung des akustischen Prompts in der Synthese weitestgehend bewahren (wie unten im dritten Beispielclip gut zu hören ist). Die Sprachausgabe von VALL- E kann bei gleichem Eingabetext variieren, es lassen sich also eine Vielzahl leicht unterschiedlicher personalisierter Sprachproben synthetisieren.

SampleSprachsynthese


Auf der Webseite von VALL-E finden sich zahlreiche weitere Beispiele.

Viele Anwendungsmöglichkeiten für eine Stimmensynthese


Die Chancen der neuen Technik sind ebenso wie die Risiken gewaltig - durch die von VALL-E benötigten, nurmehr sehr kurzen Stimmsamples erweitert sich deren Einsatzgebiet nochmals deutlich. Schon jetzt ist es zum Beispiel beim Dubbing von Filmen in einer anderen Sprache möglich, per Sprachsynthese auch für einen anderssprachigen Text die Originalstimme des jeweiligen Schauspielers zu nutzen.

Auch könnten persönliche Assistenten wie Siri oder Alexa mit den Stimmen von beliebigen anderen Menschen mit dem User kommunizieren oder Textnachrichten (seien es SMS oder Whatsapp) in der Stimme des jeweiligen Absenders vorgelesen werden. Ein sehr praktischer Einsatzzweck bietet sich für Menschen, die durch eine Erkrankung (wie z.B. Menschen mit ALS) ihre Stimme verloren haben. Diese könnten dann per Texteingabe mit ihrer eigenen Stimme reden - natürlich vorausgesetzt es existiert altes Trainingsmaterial der Stimme.

VALL-E-Audiocodec
Neural Audiocodec



Die Gefahr der Manipulation mittels Fake-Stimme


Die Missbrauchsmöglichkeiten einer Stimmsimulationen per VALL-E mittels sehr kurzer Samples sind natürlich auch groß - so könnten beliebig Sprachaufnahmen gefälscht werden, um jemanden - sei es ein bekannter Politiker oder eine Privatperson - zu diskreditieren oder falsche Informationen in Umlauf zu setzen. Ebenso könnten automatisierte Werbeanrufe mit der Stimme der eigenen Mutter oder eines Freundes erfolgen, oder eine noch überzeugendere Version des berüchtigten Enkeltrick-Schockanrufs könnte die Stimme des tatsächlichen Enkels nutzen - welche nur anhand eines kurzen Lockanrufes beim Enkel anhand dessen Sprachsample täuschend echt simuliert werden könnte.

Link mehr Informationen bei valle-demo.github.io

  
[33 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
Darth Schneider    08:43 am 14.1.2023
@bluboy So gesehen hast du natürlich recht. Jede Wette, in 10 bis 20 Jahren können sie Elvis dann einfach so klonen…;)) Aber blöderweise die Supersoldaten und AFD Wähler...weiterlesen
Bluboy    08:39 am 14.1.2023
Ich stell Dir vor dass Microsoft Ki integriert und bei Eingabe Elvis lebt, der dann tagelang noch nie dagewesene Songs trällert Einfach Toll, ich freu mich schon...weiterlesen
Darth Schneider    08:34 am 14.1.2023
Wie viele schaffen den Sprung zum Erfolg vom YouTube Sprungbrett ? 0,001% ? Ich denke das ist noch sehr optimistisch geschätzt. Also beim Lotto zu gewinnen oder im Casino zu...weiterlesen
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildAsus: Neue 16" OLED Notebooks mit 3D ohne Brille und trotzdem voller 3.2K Auflösung bildCinecred: Professionelle Film-Abspänne einfach per kostenlosem Tool erstellen


verwandte Newsmeldungen:
Machine Learning:

Runway Gen1: Neue Video-KI stilisiert Videos, maskiert Objekte, rendert 3D-Modelle 6.Februar 2023
Neues Samsung Galaxy S23 Ultra Smartphone: 8K, 200MP-Sensor, KI-Nachtmodus und verbesserter Autofokus 3.Februar 2023
Neue Audio KI generiert neben Musik auch beliebige Soundeffekte 2.Februar 2023
Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach Textbeschreibung 30.Januar 2023
Neuer KI-Effekt NVIDIA Eye Contact: Bye bye Teleprompter? 25.Januar 2023
Der totale Remix: Neue KI Tune-A-Video macht neue Videos aus alten Clips 24.Januar 2023
Großer Vergleichstest: Upscaling per KI - welches Tool ist am besten (und kostenlos)? 23.Januar 2023
alle Newsmeldungen zum Thema Machine Learning


[nach oben]

















passende Forenbeiträge zur News:

Archive

2023

Februar - Januar

2022
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 6.Februar 2023 - 23:12
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*