Schon vor anderthalb Jahren hatte OpenAI VALL-E veröffentlicht, ein System zur Sprachsynthese, welches anhand eines nur 3 Sekunden langen Samples einer Stimme in der Lage war, diese mit beliebigem Text nachzuahmen. Die weiterentwickelte Version VALL-E 2 übertrifft jetzt die alte gleich in mehreren Aspekten. So ist die synthetisierte Stimme dem Original jetzt noch ähnlicher als vorher und die Sprachqualität so hoch, dass sie erstmals nicht mehr von echten menschlichen Stimmen unterscheidbar ist. Zudem kann VALL-E 2 nun auch komplexe Sätze besser aussprechen als vorher und hat keine Probleme mehr mit Wortwiederholungen, die in der Vorversion entweder wegfielen oder eigenartig klangen.

Möglich wird das durch zwei wichtige Verbesserungen in der Systemarchitektur: VALL-E 2 wählt Sprachbausteine geschickter aus und vermeidet dabei Wiederholungen, und es verarbeitet Sprachdaten effizienter, indem es sie in Gruppen zusammenfasst. Allerdings hängt die Ähnlichkeit und Natürlichkeit der nachgeahmten Stimme von Faktoren wie der Länge und Qualität der Stimmsamples, deren Hintergrundgeräusche und anderem ab. Auf der Website von Microsoft finden sich noch mehr Audio Stimmbeispiele mit Vergleichen von VALL-E und VALL-E 2. Hier findet sich die Forschungsstudie.
Das 3 Sekunden Sample der Originalstimme:
VALL-E:
VALL-E 2:
// Top-News auf einen Blick:
- Blackmagic Camera App 3.0 für Android und iOS bringt viele Neuerungen
- Blackmagic DaVinci Resolve 20.2 bringt neben Apple ProRes RAW u.a. ...
- Apple Final Cut Camera 2.0 bringt iPhone 17 Pro ProRes RAW, Genlock und Open Gate
- iPhone 17 Pro: ProRes RAW, Genlock, Apple Log 2 und Blackmagic ProDock für Filmer
- Nikon ZR in der Praxis: 6K 50p RED RAW Monster für 2.349,- Euro mit klassenbester Colorscience?
Zwar bietet zum Beispiel auch der kommerzielle Dienst Elevenlabs das Klonen von Stimmen an, doch dieser Algorithmus benötigt mehrere Minuten, das professionelle Modell sogar mindestens 3 Stunden an Trainingsmaterial für ausreichend gut klingende "kopierte" Stimmen.

Angst vor Missbrauch
VALL-E 2 ist ein reines Forschungsprojekt. Die Entwickler haben aus Furcht vor Missbrauch derzeit keine Pläne, VALL-E 2 in ein Produkt zu integrieren oder den Algorithmus öffentlich nutzbar zu machen. Dabei wären die Einsatzmöglichkeiten für ein System, welches Sprecher nahezu perfekt nachahmen kann, vielfältig. So könnte es neben Unterhaltungszwecken auch für interaktive Sprachdialogsysteme, Übersetzungen, Chatbots usw. verwendet werden oder Menschen helfen, die Schwierigkeiten beim Sprechen haben, zum Beispiel aufgrund von Krankheiten wie Aphasie oder ALS.
Doch ein Tool für schnelles und zudem perfektes Stimmenklonen birgt die Gefahr, dass das Modell missbraucht wird, sei es zur Täuschung von Stimmauthentifizierungssystemen oder zur böswilligen Nachahmung einer bestimmten Stimme.
Sollte VALL-E 2 in Zukunft veröffentlicht werden, schlagen die Forscher ein Verfahren vor, welches sicherstellt, dass der Sprecher der Verwendung seiner Stimme und eines synthetischen Spracherkennungsmodells zustimmt. Bei Elevenlabs zum Beispiel wird zu diesem Zweck eine Text-Captcha-Abfrage bereitgestellt, die der Benutzer innerhalb von 10 Sekunden laut vorlesen muss.