Aktuelles  Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. Die Qualität von per KI generierten Stimmen wird immer besser - sie sind kaum mehr zu unterscheiden von echten Stimmen. Sogar existierende Stimmen können anhand von nur wenig Trainingsmaterial inzwischen nahezu realistisch nachgeahmt werden.

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. So gibt es nicht nur immer mehr Text-zu-Sprache Dienste, mit deren Hilfe beliebige Texte durch KI-Stimmen vertont werden können, sondern diese werden auch immer besser. Die Qualität der generierten Stimmen ist mittlerweile dank KI weit entfernt von den monotonen Computerstimmen früherer Tage und sogar existierende Stimmen können nahezu realistisch nachgeahmt werden - benötigt wird dafür immer weniger Trainignsmaterial. So kommt OpenAIs VALL-E zum Beispiel mit nur noch 3 Sekunden Stimmsamples aus, um eine Stimme simulieren zu können.



 Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?  : musicrobot


Allerdings täuscht die Anzahl der Text-2-Voice/Speech Services bezüglich der tatsächlichen Vielfalt, da viele Dienste "unter der Haube" per API einen Text-to-Speech Dienst wie etwa den von Microsofts Azure Cloud nutzen. Einige aber sind wirklich innovativ und entwickeln eigene Algorithmen und trainieren diese aufwändig. Eines der besten Tools zur Sprachgenerierung ist das des Startups Elvenlabs. Dessen Sprach-KI, die mit rund 500.000 Stunden Audiomaterial trainiert wurde, kann menschliche Stimmen erstaunlich echt simulieren bzw. klonen, inklusive eines real anmutenden Tonfalls, Sprechrhythmus und korrekter Betonungen. Ebenso lassen sich anhand mehrerer Parameter vollkommen neue Stimmen erschaffen.









Virtuelle Stimmen mit menschlichen Emotionen

Die Text-to-Voice Technologie ist so weit fortgeschritten, dass generierte Stimmen kaum mehr (von Menschen) als solche erkannt werden können und somit als "echt" durchgehen - ähnlich wie bei den per KI generierten Bildern und Texten. Das eröffnet völlig neue Anwendungsmöglichkeiten, die bisher verschlossen waren, weil die Stimmen dafür einfach noch nicht gut waren.



Elvenlabs KI versucht durch eine Art Textanalyse zu verstehen, in welcher Gefühlslage - ist der Sprecher traurig, glücklich oder wütend? - ein Satz im Kontext des gesamten Textes gesprochen werden soll. Das funktioniert so gut, dass mit der jetzt erreichten Stimmenqualität (die stetig noch weiter verbessert wird) Audiobücher, Podcasts, Hörspiele oder beliebige andere Texte vertont werden können, auf Wunsch in beliebig vielen unterschiedlichen, jeweils individuellen Stimmvarianten - vielleicht nicht in einer Qualität, die professionellen Sprechern gleichkommt, aber für viele Anwendungen und Hörer dennoch gut genug ist. Auch für den Filmbereich ergeben sich dadurch neue Chancen: so kann etwa der Sprecher eines Dokumentarfilms mit kleinem Budget jetzt durch eine per KI erzeugte Stimme ersetzt oder es können Dubversionen eines Films in anderen Sprachen generiert werden (per KI lassen sich sogar nachträglich die Lippenbewegung der Schauspieler anpassen). Für professionelle Sprecher könnte dieser technische Fortschritt allerdings bedeuten, dass viele Jobs wegfallen und vielleicht nur die besten Sprecher weiter genügend Arbeit finden werden.



Das folgende Beispiel demonstriert die Möglichkeiten einer solchen Sprach-KI für Kreative (erforderte allerdings auch einige Durchläufe und Editierarbeit):







Leserkommentare // Neueste
Brave  //  13:00 am 20.2.2023
Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise...weiterlesen
r.p.television  //  15:10 am 7.2.2023
Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur...weiterlesen
Frank Glencairn  //  07:56 am 7.2.2023
play.ht, murph, Speechelo und Google. Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS...weiterlesen
Ähnliche Artikel //
Umfrage
    Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
RSS Facebook Twitter slashCAM-Slash