Missbrauchsgefahr Microsoft VALL-E 2: KI ahmt jede Stimme perfekt nach - nur per 3s Stimmsample

// 10:07 Do, 18. Jul 2024von

Schon vor anderthalb Jahren hatte OpenAI VALL-E veröffentlicht, ein System zur Sprachsynthese, welches anhand eines nur 3 Sekunden langen Samples einer Stimme in der Lage war, diese mit beliebigem Text nachzuahmen. Die weiterentwickelte Version VALL-E 2 übertrifft jetzt die alte gleich in mehreren Aspekten. So ist die synthetisierte Stimme dem Original jetzt noch ähnlicher als vorher und die Sprachqualität so hoch, dass sie erstmals nicht mehr von echten menschlichen Stimmen unterscheidbar ist. Zudem kann VALL-E 2 nun auch komplexe Sätze besser aussprechen als vorher und hat keine Probleme mehr mit Wortwiederholungen, die in der Vorversion entweder wegfielen oder eigenartig klangen.


The new model of VALL-E 2
Das neue Modell von VALL-E 2


Möglich wird das durch zwei wichtige Verbesserungen in der Systemarchitektur: VALL-E 2 wählt Sprachbausteine geschickter aus und vermeidet dabei Wiederholungen, und es verarbeitet Sprachdaten effizienter, indem es sie in Gruppen zusammenfasst. Allerdings hängt die Ähnlichkeit und Natürlichkeit der nachgeahmten Stimme von Faktoren wie der Länge und Qualität der Stimmsamples, deren Hintergrundgeräusche und anderem ab. Auf der Website von Microsoft finden sich noch mehr Audio Stimmbeispiele mit Vergleichen von VALL-E und VALL-E 2. Hier findet sich die Forschungsstudie.



Das 3 Sekunden Sample der Originalstimme:




VALL-E:




VALL-E 2:



VALL-E 2 (mit 10 Sekunden Stimmsample):





Zwar bietet zum Beispiel auch der kommerzielle Dienst Elevenlabs das Klonen von Stimmen an, doch dieser Algorithmus benötigt mehrere Minuten, das professionelle Modell sogar mindestens 3 Stunden an Trainingsmaterial für ausreichend gut klingende "kopierte" Stimmen.



Naturalness and similarity of the simulated voice in comparison
Natürlichkeit und Ähnlichkeit der simulierten Stimme im Vergleich





Angst vor Missbrauch

VALL-E 2 ist ein reines Forschungsprojekt. Die Entwickler haben aus Furcht vor Missbrauch derzeit keine Pläne, VALL-E 2 in ein Produkt zu integrieren oder den Algorithmus öffentlich nutzbar zu machen. Dabei wären die Einsatzmöglichkeiten für ein System, welches Sprecher nahezu perfekt nachahmen kann, vielfältig. So könnte es neben Unterhaltungszwecken auch für interaktive Sprachdialogsysteme, Übersetzungen, Chatbots usw. verwendet werden oder Menschen helfen, die Schwierigkeiten beim Sprechen haben, zum Beispiel aufgrund von Krankheiten wie Aphasie oder ALS.



Doch ein Tool für schnelles und zudem perfektes Stimmenklonen birgt die Gefahr, dass das Modell missbraucht wird, sei es zur Täuschung von Stimmauthentifizierungssystemen oder zur böswilligen Nachahmung einer bestimmten Stimme.



Sollte VALL-E 2 in Zukunft veröffentlicht werden, schlagen die Forscher ein Verfahren vor, welches sicherstellt, dass der Sprecher der Verwendung seiner Stimme und eines synthetischen Spracherkennungsmodells zustimmt. Bei Elevenlabs zum Beispiel wird zu diesem Zweck eine Text-Captcha-Abfrage bereitgestellt, die der Benutzer innerhalb von 10 Sekunden laut vorlesen muss.


Ähnliche News //
Umfrage
    Generative Video-KI: Hast du ein Abo?







    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash