Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. So gibt es nicht nur immer mehr Text-zu-Sprache Dienste, mit deren Hilfe beliebige Texte durch KI-Stimmen vertont werden können, sondern diese werden auch immer besser. Die Qualität der generierten Stimmen ist mittlerweile dank KI weit entfernt von den monotonen Computerstimmen früherer Tage und sogar existierende Stimmen können nahezu realistisch nachgeahmt werden - benötigt wird dafür immer weniger Trainignsmaterial. So kommt OpenAIs VALL-E zum Beispiel mit nur noch 3 Sekunden Stimmsamples aus, um eine Stimme simulieren zu können.
Allerdings täuscht die Anzahl der Text-2-Voice/Speech Services bezüglich der tatsächlichen Vielfalt, da viele Dienste "unter der Haube" per API einen Text-to-Speech Dienst wie etwa den von Microsofts Azure Cloud nutzen. Einige aber sind wirklich innovativ und entwickeln eigene Algorithmen und trainieren diese aufwändig. Eines der besten Tools zur Sprachgenerierung ist das des Startups Elvenlabs. Dessen Sprach-KI, die mit rund 500.000 Stunden Audiomaterial trainiert wurde, kann menschliche Stimmen erstaunlich echt simulieren bzw. klonen, inklusive eines real anmutenden Tonfalls, Sprechrhythmus und korrekter Betonungen. Ebenso lassen sich anhand mehrerer Parameter vollkommen neue Stimmen erschaffen.
Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise...weiterlesen
r.p.television 15:10 am 7.2.2023
Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur...weiterlesen
Frank Glencairn 07:56 am 7.2.2023
play.ht, murph, Speechelo und Google.
Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS...weiterlesen
Essays: Zombies am Set: James Dean CGI-Puppe spielt Hauptrolle in neuem Film Mi, 13.November 2019 Schlechte Nachrichten für Schauspieler: die Toten spielen ab jetzt wieder mit - und zwar nicht irgendwelche, sondern die Stars. So soll der legendäre James Dean, 1955 im Alter von nur 24 Jahren gestorben, im Film "Finding Jack" eine der Hauptrollen spielen -- doch was heißt hier "spielen"?
Essays: YouTube: Geld nur noch für 100% werbe-freundliche Videos? Di, 19.September 2017 YouTube hat sich zu einem Medium entwickelt, welches von 100erten Millionen Usern täglich genutzt wird – und das für Viele zu einer Alternative zum Fernsehen geworden ist. Doch wo sind die Grenzen dessen, was gezeigt und an was verdient werden darf? Was passiert, wenn YouTube auf Druck von Werbekunden Videoproduzenten die Möglichkeit verweigert Geld mit ihren Videos zu verdienen?
Essays: Kamera-Trends für 2017 Fr, 7.April 2017 Das Jahr hat ja mit der Panasonic GH5 und der Blackmagic URSA Mini Pro schon aufregend angefangen. Doch was soll denn da eigentlich noch im Rest des Jahres passieren?
Essays: Kühler Kamera-Herbst 2016 Mo, 18.Juli 2016 Nicht weniger als vier relevante Fachmessen gibt es diesen September, jedoch stehen die Zeichen für neue Kameravorstellungen eher schlecht...