Missbrauchsgefahr Microsoft VALL-E 2: KI ahmt jede Stimme perfekt nach - nur per 3s Stimmsample

// 10:07 Do, 18. Jul 2024von Thomas Richter

Schon vor anderthalb Jahren hatte OpenAI VALL-E veröffentlicht, ein System zur Sprachsynthese, welches anhand eines nur 3 Sekunden langen Samples einer Stimme in der Lage war, diese mit beliebigem Text nachzuahmen. Die weiterentwickelte Version VALL-E 2 übertrifft jetzt die alte gleich in mehreren Aspekten. So ist die synthetisierte Stimme dem Original jetzt noch ähnlicher als vorher und die Sprachqualität so hoch, dass sie erstmals nicht mehr von echten menschlichen Stimmen unterscheidbar ist. Zudem kann VALL-E 2 nun auch komplexe Sätze besser aussprechen als vorher und hat keine Probleme mehr mit Wortwiederholungen, die in der Vorversion entweder wegfielen oder eigenartig klangen.

The new model of VALL-E 2 — Das neue Modell von VALL-E 2

Möglich wird das durch zwei wichtige Verbesserungen in der Systemarchitektur: VALL-E 2 wählt Sprachbausteine geschickter aus und vermeidet dabei Wiederholungen, und es verarbeitet Sprachdaten effizienter, indem es sie in Gruppen zusammenfasst. Allerdings hängt die Ähnlichkeit und Natürlichkeit der nachgeahmten Stimme von Faktoren wie der Länge und Qualität der Stimmsamples, deren Hintergrundgeräusche und anderem ab. Auf der Website von Microsoft finden sich noch mehr Audio Stimmbeispiele mit Vergleichen von VALL-E und VALL-E 2. Hier findet sich die Forschungsstudie.

Das 3 Sekunden Sample der Originalstimme:

VALL-E:

VALL-E 2:

// Top-News auf einen Blick:

VALL-E 2 (mit 10 Sekunden Stimmsample):

Zwar bietet zum Beispiel auch der kommerzielle Dienst Elevenlabs das Klonen von Stimmen an, doch dieser Algorithmus benötigt mehrere Minuten, das professionelle Modell sogar mindestens 3 Stunden an Trainingsmaterial für ausreichend gut klingende "kopierte" Stimmen.

Naturalness and similarity of the simulated voice in comparison — Natürlichkeit und Ähnlichkeit der simulierten Stimme im Vergleich

Angst vor Missbrauch

VALL-E 2 ist ein reines Forschungsprojekt. Die Entwickler haben aus Furcht vor Missbrauch derzeit keine Pläne, VALL-E 2 in ein Produkt zu integrieren oder den Algorithmus öffentlich nutzbar zu machen. Dabei wären die Einsatzmöglichkeiten für ein System, welches Sprecher nahezu perfekt nachahmen kann, vielfältig. So könnte es neben Unterhaltungszwecken auch für interaktive Sprachdialogsysteme, Übersetzungen, Chatbots usw. verwendet werden oder Menschen helfen, die Schwierigkeiten beim Sprechen haben, zum Beispiel aufgrund von Krankheiten wie Aphasie oder ALS.

Doch ein Tool für schnelles und zudem perfektes Stimmenklonen birgt die Gefahr, dass das Modell missbraucht wird, sei es zur Täuschung von Stimmauthentifizierungssystemen oder zur böswilligen Nachahmung einer bestimmten Stimme.

Sollte VALL-E 2 in Zukunft veröffentlicht werden, schlagen die Forscher ein Verfahren vor, welches sicherstellt, dass der Sprecher der Verwendung seiner Stimme und eines synthetischen Spracherkennungsmodells zustimmt. Bei Elevenlabs zum Beispiel wird zu diesem Zweck eine Text-Captcha-Abfrage bereitgestellt, die der Benutzer innerhalb von 10 Sekunden laut vorlesen muss.

mehr Infos bei
www.microsoft.com

Auf Socials teilen:

Leserkommentare // Neueste

Anonymous // 15:05 am 18.7.2024

Die ganzen Online-Junkies/Zombies liefern ihr Stimmmaterial sogar frei Haus in beliebiger Länge...

berlin123 // 13:35 am 18.7.2024

Es ist richtig von Microsoft die Risiken vorher zu beachten und sich entsprechende Massnahmen zu überlegen bevor man so ein Tool der Allgemeinheit gibt. Der Umsatz der...weiterlesen

Frank Glencairn // 12:23 am 18.7.2024

Bloß gut daß unserer Vorfahren keine solche feigen Schisser waren, und Feuer, Messer, Elektrizität, Computer, Internet etc. nicht aus lauter Furcht vor Missbrauch in den...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine ...

// 16:42 Mo, 9. Jan 2023von Thomas Richter

News

KIs imitieren Stimmen perfekt - Vorsicht vor anrollenden Betrugswellen

Befürchtet war es ja schon länger - jetzt ist es so weit: Die ersten Telefontrickbetrüger nutzen Stimmen-KIs, um alte Menschen durch einen vorgeblichen Notfall eines ihrer Kinder ....

// 13:16 Do, 9. Mär 2023von Thomas Richter

News

Stimme geklaut? Scarlett Johansson kritisiert OpenAI: ChatGPT spricht wie ich

Scarlett Johansson wollte ihre Stimme nicht für ChatGPT zur Verfügung stellen. Trotzdem klingt eine der ChatGPT 4.0 Stimmen - Sky - ihr zum Verwechseln ähnlich - warum?

// 19:06 Di, 21. Mai 2024von blip

News

Generative KI-Videos 60 Sekunden Clips und konsistente Charaktere - OpenAI Sora vor der Veröffentlichung?

UPDATE 9. Dezember 21:31: OpenAI hat Sora jetzt offiziell vorgestellt und für alle Plus und Pro Abonnenten frei gegeben - hier unsere News mit allen neuen Features, Preisen und ...

// 09:47 Mo, 9. Dez 2024von Rudi Schmidts

News

Gegen Stimmenklau per KI YouTuber verliert Prozess - Bruce Willis Synchronstimme darf nicht geklont werden

Der Schauspieler Manfred Lehmann ist wahrscheinlich nicht vielen Menschen ein Begriff, wohl aber seine Stimme, denn sie ist die Synchronstimme von Gérard Depardieu, Kurt Russell .....

// 14:23 So, 7. Sep 2025von Thomas Richter

zur Newsübersicht >

Top Deals für Filmemacher Erste Black Friday Angebote von Atomos, Nanlite, DZOFILM und mehr

Die vielen Rabattaktionen rund um den Black Friday (der dieses Jahr auf den 28. November fällt) sind immer wieder eine gute Gelegenheit für ein Schnäppchen - gerade wenn man ...

// 12:24 Di, 18. Nov 2025von Thomas Richter

Meinung

Hollywood as a Service? ARRIs Color KnowHow könnte Millionen Wert sein - als Workflow Lizenz für Dritte

Kamera-Hardware und die Color-Science in der Firmware waren bei ARRI bislang untrennbar verbunden. Doch muss das auch weiterhin so sein?

// 15:44 Mo, 17. Nov 2025von Rudi Schmidts

Test

Entry-Level Cinema Kamera Canon EOS C50 im Praxistest: Kompaktes Arbeitstier mit 7K 50p Raw - die neue FX3 Konkurrenz

Mit der EOS C50 rundet Canon sein Cinema EOS Portfolio nach unten hin ab und bringt gleichzeitig einen direkten Konkurrenten zur erfolgreichen Sony FX3 auf den Weg. Wir haben uns ...

// 15:55 Do, 13. Nov 2025von Rob

Test

Alive and Kicking Blackmagic Pocket Cinema Camera 4K Sensor-Test - Wiedersehen mit ProRes RAW

Nachdem Blackmagic seinem Pocket Kamera-Klassiker ein unerwartetes ProRes RAW Update beschert hat, fragen wir uns, für wen sich das neue RAW Format eigentlich lohnt...

// 13:49 Fr, 31. Okt 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Generative KI Videos OpenAI Sora 2 - Nutzungsrichtlinie entfacht internationalen Urheberrechtsstreit

Die Frage, wie man gesetzlich das Urheberrecht für generative KI-Inhalte regeln soll droht von der normativen Kraft des Faktischen überholt zu werden.

// 17:35 Mo, 20. Okt 2025von Rudi Schmidts

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

zur Artikelübersicht >

Aktuelle News //

News

Kostenlose 3D-Suite Blender 5.0 ist da: Meilenstein mit vielen Neuerungen für 3D, Animation und Postpro

Pünktlich zum Jahresende legt die Blender Foundation einen kleinen Knaller auf den digitalen Content-Creation-Tisch: Die Version 5.0 der freien 3D-Suite ist ab sofort verfügbar. .....

// 11:06 Mi, 19. Nov 2025von Rudi Schmidts

News

Mobile Video-Beleuchtung Nanlite Cookie und Cookie-S - Kompakte USB-C-Leuchten mit doppelseitigem Licht

Mit den neuen LED-Leuchten cookie und cookie-s erweitert Nanlite sein Portfolio um zwei besonders kompakte Lichtquellen, die speziell für mobile und improvisierte ...

// 09:41 Mi, 19. Nov 2025von Thomas Richter

zur Newsübersicht >