Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. Die Qualität von per KI generierten Stimmen wird immer besser - sie sind kaum mehr zu unterscheiden von echten Stimmen. Sogar existierende Stimmen können anhand von nur wenig Trainingsmaterial inzwischen nahezu realistisch nachgeahmt werden.

// 19:47 Mo, 6. Feb 2023von Rudi Schmidts

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. So gibt es nicht nur immer mehr Text-zu-Sprache Dienste, mit deren Hilfe beliebige Texte durch KI-Stimmen vertont werden können, sondern diese werden auch immer besser. Die Qualität der generierten Stimmen ist mittlerweile dank KI weit entfernt von den monotonen Computerstimmen früherer Tage und sogar existierende Stimmen können nahezu realistisch nachgeahmt werden - benötigt wird dafür immer weniger Trainignsmaterial. So kommt OpenAIs VALL-E zum Beispiel mit nur noch 3 Sekunden Stimmsamples aus, um eine Stimme simulieren zu können.

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher? : musicrobot

Allerdings täuscht die Anzahl der Text-2-Voice/Speech Services bezüglich der tatsächlichen Vielfalt, da viele Dienste "unter der Haube" per API einen Text-to-Speech Dienst wie etwa den von Microsofts Azure Cloud nutzen. Einige aber sind wirklich innovativ und entwickeln eigene Algorithmen und trainieren diese aufwändig. Eines der besten Tools zur Sprachgenerierung ist das des Startups Elvenlabs. Dessen Sprach-KI, die mit rund 500.000 Stunden Audiomaterial trainiert wurde, kann menschliche Stimmen erstaunlich echt simulieren bzw. klonen, inklusive eines real anmutenden Tonfalls, Sprechrhythmus und korrekter Betonungen. Ebenso lassen sich anhand mehrerer Parameter vollkommen neue Stimmen erschaffen.

Virtuelle Stimmen mit menschlichen Emotionen

Die Text-to-Voice Technologie ist so weit fortgeschritten, dass generierte Stimmen kaum mehr (von Menschen) als solche erkannt werden können und somit als "echt" durchgehen - ähnlich wie bei den per KI generierten Bildern und Texten. Das eröffnet völlig neue Anwendungsmöglichkeiten, die bisher verschlossen waren, weil die Stimmen dafür einfach noch nicht gut waren.

Elvenlabs KI versucht durch eine Art Textanalyse zu verstehen, in welcher Gefühlslage - ist der Sprecher traurig, glücklich oder wütend? - ein Satz im Kontext des gesamten Textes gesprochen werden soll. Das funktioniert so gut, dass mit der jetzt erreichten Stimmenqualität (die stetig noch weiter verbessert wird) Audiobücher, Podcasts, Hörspiele oder beliebige andere Texte vertont werden können, auf Wunsch in beliebig vielen unterschiedlichen, jeweils individuellen Stimmvarianten - vielleicht nicht in einer Qualität, die professionellen Sprechern gleichkommt, aber für viele Anwendungen und Hörer dennoch gut genug ist. Auch für den Filmbereich ergeben sich dadurch neue Chancen: so kann etwa der Sprecher eines Dokumentarfilms mit kleinem Budget jetzt durch eine per KI erzeugte Stimme ersetzt oder es können Dubversionen eines Films in anderen Sprachen generiert werden (per KI lassen sich sogar nachträglich die Lippenbewegung der Schauspieler anpassen). Für professionelle Sprecher könnte dieser technische Fortschritt allerdings bedeuten, dass viele Jobs wegfallen und vielleicht nur die besten Sprecher weiter genügend Arbeit finden werden.

Das folgende Beispiel demonstriert die Möglichkeiten einer solchen Sprach-KI für Kreative (erforderte allerdings auch einige Durchläufe und Editierarbeit):

Echte Stimmen klonen

Viele weitere Anwendungsgebiete ergeben sich dadurch, dass schon vorhandene Stimmen in überraschend guter Qualität (zum Beispiel auch Akzente) geklont werden können. Die geklonte Stimme kann einen beliebigen Text sprechen oder alternativ auch Gesprochenes aus einer anderen Stimme konvertieren:

Für Filmemacher bieten sich dadurch interessante Möglichkeiten. So lassen sich nachträgliche Stimmaufnahmen - zum Beispiel zum Dubbing oder zur Korrektur von Versprechern beim Dreh - im Studio machen, ohne dass die Schauspieler vor Ort sein müssten. Da allerdings bisher keine besondere Berechtigung nötig ist, kann im Prinzip jede beliebige Stimme, von der man etwas Audiomaterial hat, simuliert werden, was natürlich schon zu einem kleinen Skandal geführt hat.

Der Missbrauch ist nicht weit

Denn User der berüchtigten Internetplattform 4chan haben Elvenlabs Sprach-AI dazu genutzt, Audiofakes mit den Stimmen von bekannten Persönlichkeiten zu produzieren. So zirkulieren unter anderem Clips, in welchen die Schauspielerin Emma Watson einen Auszug aus Adolf Hitlers "Mein Kampf" liest und der amerikanische Präsident Joe Biden ankündigt, Truppen in die Ukraine zu schicken - zum Teil auch noch per DeepFake als Video einigermaßen realistisch animiert.

Hier eine Demo dieser Fähigkeit, Stimmen zu klonen:

Dieser - wenig überraschende - Missbrauch der Technik hat dazu geführt, dass Elvenlabs den bisher anonymen kostenlosen Zugang jetzt beschränkt hat. Zwar gibt es noch die Möglichkeit, kostenlos Sprechersamples zu generieren (mit bis zu 10.000 Zeichen pro Monat), aber User müssen sich davor samt Kreditkarteninformationen registrieren, um nicht mehr ganz so anonym wie bisher zu sein und können nur noch vorgefertigte Stimmen verwenden. Zudem ist die Voice Lab Funktion, mit deren Hilfe beliebige Stimmen nachgeahmt werden können, nurmehr im bezahlpflichtigen Dienst zugänglich. Überlegt wird auch, in Zukunft das Klonen von Stimmen nur noch anhand eines speziellen, extra einzusprechenden Textes zu erlauben, also nicht mehr über x-beliebige Samples.

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher? : elvenlabs

ElevenLabs versieht ferner jeden Audioclip mit einem Wasserzeichen, um ihn bei Missbrauch zu dem User zurückzuverfolgen, welcher ihn generiert hat und diesen zu sperren. Auch soll demnächst ein Tool veröffentlicht werden, mit dessen Hilfe geprüft werden kann, ob ein Audioclip einer Stimme mit mittels der Elvenlab Technologie erstellt wurde.

Es wird sich zeigen, ob diese Schutzmaßnahmen ausreichen, um Missbrauch zu vermeiden. Allerdings gibt auch noch weitere Sprach-KIs, die sich nicht diese Beschränkungen auferlegen. Es ist also nur eine Frage der Zeit, bis zum nächsten Skandal mit einer Fakestimme.

Individueller gefährlicher sind Stimmfakes aber im privaten Bereich, wo die Möglichkeiten durch die neue Technologie auf noch größtenteils ahnungslose Menschen trifft, welche nicht vorbereitet sind auf täuschend echt gefälschte Stimmen.

Da wenige Sekunden Audiomaterial reichen, um eine Stimme realistisch nachzuahmen (heutzutage leicht in Videos in den sozialen Netzwerken zu finden), könnten AudioFakes bald allgegenwärtig sein, etwa in Form eines Liebesgeständnisses, das jemandem in den Mund gelegt wird, oder Hasstiraden, falschen Aussagen uä. Noch realistischere Enkeltricks mit der Originalstimme oder andere Betrügereien sind ohne viel Phantasie denkbar. Die Stimme hat damit als untrügliches Authentifizierungsmerkmal ausgedient - erst recht im Zusammenspiel mit per ChatGPT (bzw. einer zukünftig noch besseren Text-KI) in Echtzeit erzeugten Dialogtexten.

Was kostet es? Können KIs auch deutsch?

Mehrere Text-to-Speech Services bieten eine kostenlose Lizenz an, diese umfasst aber meist nur einige unterschiedliche Sprecherstimmen, wenig Text bzw. kurze Sprechzeiten und darf in der Regel auch nicht kommerziell genutzt werden. Aber schon ab wenigen Euro bzw. Dollar pro Monat (bei Elvenlabs 5 Dollar, bei MURF 19 Dollar, bei Play.ht rund 15 Dollar) wird auch die kommerzielle Nutzung erlaubt, es stehen mehr Sprecherzeit und auch mehr Stimmen zur Verfügung.

Noch funktioniert die Stimmgenerierung von Elvenlabs KI nur auf Englisch, aber es ist nur eine Frage der Zeit, bis die Auswahl immer größer wird. Es gibt jedoch bereits andere hochwertige Text-to-Voice oder auch Voice-to-Voice Dienste, die auch Deutsch beherrschen, wie etwa MURF oder Play.ht.

Welche Erfahrungen habt Ihr gemacht beim Gebrauch von solchen Sprach-KIs?

Leserkommentare // Neueste

Brave // 13:00 am 20.2.2023

Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise...weiterlesen

r.p.television // 15:10 am 7.2.2023

Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur...weiterlesen

Frank Glencairn // 07:56 am 7.2.2023

play.ht, murph, Speechelo und Google. Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS...weiterlesen

Im Forum mitdiskutieren >>

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

KI macht´s möglich: Fake-Filmstills von Fritz Langs Star Wars, Jodorowskys Tron und mehr

Die neuen bildgenerierenden KIs bescheren dem Genre "Was wäre wenn...?" ganz neue Möglichkeiten - ein eigenes Subgenre hat sich in der Community der Bild-KI Midjourney gebildet, ...

// 16:17 Di, 6. Dez 2022von Thomas Richter

Meinung

Aus dem Uncanny Valley mitten ins Herz

Kürzlich hat Roope Rainisto ein KI-Dreambooth Modell für "Realistische Fotos" präsentiert. Und dabei ist uns klar geworden, dass wir mittlerweile einen Kipppunkt bei der Erzeugung ...

// 11:13 Mo, 28. Nov 2022von Rudi Schmidts

Wissen

Grundwissen KI Künstliche Intelligenz einfach erklärt - Perzeptron, Backpropagation und Loss

Generative KI-Modelle wie Midjourney, Runway oder Stable Diffusion werden immer leichter für jedermann zu bedienen. Dennoch verstehen die wenigsten Anwender was hinter den ...

// 12:18 Fr, 4. Aug 2023von Rudi Schmidts

Praxis

Mattepainting für Dummys - mit Photoshops Generative Fill Funktion

Wir hatten schon einmal kurz auf Photoshops "Generative Fill"-Möglichkeiten im Zusammenhang mit Videoaufnahmen hingewiesen. In diesem Workshop möchten wir zeigen, wie die ...

// 13:26 Mi, 16. Aug 2023von Rudi Schmidts

Meinung

Die Zukunft des Tracking - das Ende der High-Speed-Kameras?

Zuverlässiges Tracking ist die Basis für bewährte Optical Flow Algorithmen. Nun steht in diesem Gebiet eine qualitative Revolution vor der Tür und dies dürfte nicht nur die ...

// 08:30 Di, 27. Jun 2023von Rudi Schmidts

Aktuelles

Digitale Bilder mit Herkunftgarantie? Nikon und Leica implementieren Content-Authentifizierung in

Eine Flut von KI-generierten oder -manipulierten Bilder steht uns bevor - eine von der Content Authenticity Initiative entwickelte Herkunftsgarantie für digital erstellte Bilder ...

// 12:39 Do, 27. Okt 2022von blip

Meinung

Digitale Avatare im Metaverse - doch das nächste große Ding?

Das Metaverse war eigentlich schon wieder abgeschrieben, doch Metas neue Codec Avatare könnten unsere Kommunikation in Zukunft doch gehörig umkrempeln.

// 13:00 Di, 3. Okt 2023von Rudi Schmidts

Adobe Premiere Pro - Filler Word Detection und Enhance Speech erklärt

Text-Based Editing wird mit neuen Tools ausgebaut - mit einem einfachen Klick lassen sich nun Füllwörter (etwa die berüchtigten "Ähs") im Text automatisch finden und löschen, ...

// 11:59 Di, 26. Sep 2023von slashCAM

zur Artikelübersicht >

Viele Verbesserungen Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes

Kaum drei Wochen nach der Veröffentlichung der Version 20 von Resolve hat Blackmagic schon die zweite Beta seines kostenlosen Grading-, Schnitt-, Compositing- und Audio-Mastering-....

// 12:19 Mi, 23. Apr 2025von Thomas Richter

News

E-Mount Zoom Sony stellt FE 50-150mm F2 GM Zoom für Pros vor: Lichtstark, leicht und hochpreisig

Mit dem FE 50-150mm F2 stellt Sony ein bemerkenswert lichtstarkes Vollformat-Zoom vor, das für professionelle Anwender in den Bereichen Hochzeit, Porträt, Indoor-Sport usw. ...

// 08:00 Mi, 23. Apr 2025von Rob

News

Universeller Speicher Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen

Forscher der Fudan-Universität in Shanghai haben einen neuen Geschwindigkeits-Weltrekord für Flash-Speicher aufgestellt. Der von ihnen in 10-jähriger Arbeit entwickelte "PoX" ...

// 10:05 Di, 22. Apr 2025von Thomas Richter

Ratgeber

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Wer die Entwicklung aktueller Video-KI-Modelle verfolgt, sieht fast jeden Tag neue Sensationen. Da liegt es nahe, auch einmal selbst Hand anzulegen, um eigene Erfahrungen mit der ...

// 11:35 Di, 15. Apr 2025von Rudi Schmidts

TOP THEMEN //

MEHR ARTIKEL

zur Artikelübersicht >

PASSENDE DISKUSSIONEN

zum Forum >>

Aktuelle News //

News

Für Smartphones und Kameras Wird Sony bald seine Sensor Sparte ausgliedern?

Laut eines Paywall-Berichts von Bloomberg erwägt die Sony Group Corp. die Ausgliederung ihrer Halbleitersparte - einschließlich der Sensorherstellung. Demnach würde Sony nach der ....

// 15:09 Fr, 2. Mai 2025von Rudi Schmidts

News

Consistent Characters Runway Gen-4-Referenzen – jetzt in allen Bezahl-Tarifen verfügbar

Runway hat gestern das Feature "Gen-4-Referenzen" in allen kostenpflichtigen Tarifen freigeschaltet. Hiermit können Anwender ab sofort konsistente Charaktere, Orte und andere ...

// 15:47 Do, 1. Mai 2025von Rudi Schmidts

zur Newsübersicht >

zum Forum >>

Neueste Artikel //

Praxis

Timeline-Compositing DaVinci Resolve 20 Workshop - Photoshop Layer-Split und der neue Keyframe Editor

Mit der neuen Version 20 kamen in Resolve eine Menge neuer KI-Features hinzu. Allerdings gibt es im Schatten des KI-Rampenlichts auch einige, nicht minder interessante Neuigkeiten ...

// 13:26 Fr, 2. Mai 2025von Rudi Schmidts

Aktuelles

Public Voting Nikon Z50II Create-a-Cut Wettbewerb: Stimme für den besten Clip ab!

Unser Wettbewerb mit Nikon geht in die entscheidende Phase: Willkommen zum Public Voting! Zugegeben war die Aufgabe ziemlich anspruchsvoll, doch wir sind schwer beeindruckt, welch ...

// 13:05 Mi, 30. Apr 2025von slashCAM

zur Artikelübersicht >