Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. Die Qualität von per KI generierten Stimmen wird immer besser - sie sind kaum mehr zu unterscheiden von echten Stimmen. Sogar existierende Stimmen können anhand von nur wenig Trainingsmaterial inzwischen nahezu realistisch nachgeahmt werden.

// 19:47 Mo, 6. Feb 2023von Thomas Richter

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. So gibt es nicht nur immer mehr Text-zu-Sprache Dienste, mit deren Hilfe beliebige Texte durch KI-Stimmen vertont werden können, sondern diese werden auch immer besser. Die Qualität der generierten Stimmen ist mittlerweile dank KI weit entfernt von den monotonen Computerstimmen früherer Tage und sogar existierende Stimmen können nahezu realistisch nachgeahmt werden - benötigt wird dafür immer weniger Trainignsmaterial. So kommt OpenAIs VALL-E zum Beispiel mit nur noch 3 Sekunden Stimmsamples aus, um eine Stimme simulieren zu können.

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher? : musicrobot

Allerdings täuscht die Anzahl der Text-2-Voice/Speech Services bezüglich der tatsächlichen Vielfalt, da viele Dienste "unter der Haube" per API einen Text-to-Speech Dienst wie etwa den von Microsofts Azure Cloud nutzen. Einige aber sind wirklich innovativ und entwickeln eigene Algorithmen und trainieren diese aufwändig. Eines der besten Tools zur Sprachgenerierung ist das des Startups Elvenlabs. Dessen Sprach-KI, die mit rund 500.000 Stunden Audiomaterial trainiert wurde, kann menschliche Stimmen erstaunlich echt simulieren bzw. klonen, inklusive eines real anmutenden Tonfalls, Sprechrhythmus und korrekter Betonungen. Ebenso lassen sich anhand mehrerer Parameter vollkommen neue Stimmen erschaffen.

Virtuelle Stimmen mit menschlichen Emotionen

Die Text-to-Voice Technologie ist so weit fortgeschritten, dass generierte Stimmen kaum mehr (von Menschen) als solche erkannt werden können und somit als "echt" durchgehen - ähnlich wie bei den per KI generierten Bildern und Texten. Das eröffnet völlig neue Anwendungsmöglichkeiten, die bisher verschlossen waren, weil die Stimmen dafür einfach noch nicht gut waren.

Elvenlabs KI versucht durch eine Art Textanalyse zu verstehen, in welcher Gefühlslage - ist der Sprecher traurig, glücklich oder wütend? - ein Satz im Kontext des gesamten Textes gesprochen werden soll. Das funktioniert so gut, dass mit der jetzt erreichten Stimmenqualität (die stetig noch weiter verbessert wird) Audiobücher, Podcasts, Hörspiele oder beliebige andere Texte vertont werden können, auf Wunsch in beliebig vielen unterschiedlichen, jeweils individuellen Stimmvarianten - vielleicht nicht in einer Qualität, die professionellen Sprechern gleichkommt, aber für viele Anwendungen und Hörer dennoch gut genug ist. Auch für den Filmbereich ergeben sich dadurch neue Chancen: so kann etwa der Sprecher eines Dokumentarfilms mit kleinem Budget jetzt durch eine per KI erzeugte Stimme ersetzt oder es können Dubversionen eines Films in anderen Sprachen generiert werden (per KI lassen sich sogar nachträglich die Lippenbewegung der Schauspieler anpassen). Für professionelle Sprecher könnte dieser technische Fortschritt allerdings bedeuten, dass viele Jobs wegfallen und vielleicht nur die besten Sprecher weiter genügend Arbeit finden werden.

Das folgende Beispiel demonstriert die Möglichkeiten einer solchen Sprach-KI für Kreative (erforderte allerdings auch einige Durchläufe und Editierarbeit):

Nächste Seite >>

Echte Stimmen klonen / Der Missbrauch ist nicht weit

Leserkommentare // Neueste

Brave // 13:00 am 20.2.2023

Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise...weiterlesen

r.p.television // 15:10 am 7.2.2023

Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur...weiterlesen

Frank Glencairn // 07:56 am 7.2.2023

play.ht, murph, Speechelo und Google. Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS...weiterlesen

Im Forum mitdiskutieren >>

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Test

slashCam Bestenliste Die besten DSLMs für Video 2025: Blackmagic, Sony, Nikon, Canon, Panasonic ...

Mit der Sony FX2, der Canon EOS R5 Mark II sowie der Panasonic S1II, S1RII und GH7 haben wir zahlreiche neue Kameras getestet, die viel Bewegung in unser "Beste DSLM für Video" ...

// 12:34 Mo, 11. Aug 2025von Rob

Aktuelles

KI macht´s möglich: Fake-Filmstills von Fritz Langs Star Wars, Jodorowskys Tron und mehr

Die neuen bildgenerierenden KIs bescheren dem Genre "Was wäre wenn...?" ganz neue Möglichkeiten - ein eigenes Subgenre hat sich in der Community der Bild-KI Midjourney gebildet, ...

// 16:17 Di, 6. Dez 2022von Thomas Richter

Praxis

Mattepainting für Dummys - mit Photoshops Generative Fill Funktion

Wir hatten schon einmal kurz auf Photoshops "Generative Fill"-Möglichkeiten im Zusammenhang mit Videoaufnahmen hingewiesen. In diesem Workshop möchten wir zeigen, wie die ...

// 13:26 Mi, 16. Aug 2023von Rudi Schmidts

Adobe Premiere Pro - Filler Word Detection und Enhance Speech erklärt

Text-Based Editing wird mit neuen Tools ausgebaut - mit einem einfachen Klick lassen sich nun Füllwörter (etwa die berüchtigten "Ähs") im Text automatisch finden und löschen, ...

// 11:59 Di, 26. Sep 2023von slashCAM

Wissen

Grundwissen KI Künstliche Intelligenz einfach erklärt - Perzeptron, Backpropagation und Loss

Generative KI-Modelle wie Midjourney, Runway oder Stable Diffusion werden immer leichter für jedermann zu bedienen. Dennoch verstehen die wenigsten Anwender was hinter den ...

// 12:18 Fr, 4. Aug 2023von Rudi Schmidts

Meinung

Die Zukunft des Tracking - das Ende der High-Speed-Kameras?

Zuverlässiges Tracking ist die Basis für bewährte Optical Flow Algorithmen. Nun steht in diesem Gebiet eine qualitative Revolution vor der Tür und dies dürfte nicht nur die ...

// 08:30 Di, 27. Jun 2023von Rudi Schmidts

Meinung

Digitale Avatare im Metaverse - doch das nächste große Ding?

Das Metaverse war eigentlich schon wieder abgeschrieben, doch Metas neue Codec Avatare könnten unsere Kommunikation in Zukunft doch gehörig umkrempeln.

// 13:00 Di, 3. Okt 2023von Rudi Schmidts

Praxis

KI-Tools in der Filmproduktion: Moodboards mit Adobe Firefly erstellen

News

Kostenlose Profi-Kamera-App Blackmagic Camera for Android 3.2 bringt H.265-, SRT-Streaming und mehr

Blackmagic hat wieder eine neue Version seiner kostenlosen professionellen Camera App für Android veröffentlicht. Die Version 3.2 bringt mehrere Funktionen, die vor allem Live-...

// 15:18 Do, 27. Nov 2025von Thomas Richter

Aktuelles

Community-Umfrage Sony und slashCam verlosen eine FX2 Cinema Line Kamera

Weihnachten steht vor der Tür - und Sony hat ein besonderes Geschenk für die slashCam Community in Petto: Wer Glück hat, kann sich demnächst eine Sony FX2 unter den Baum legen. ...

// 22:13 Mo, 1. Dez 2025von slashCAM

Test

Halbe Portion? Blackmagic PYXIS 12K - Sensor-Test - Rolling Shutter und Dynamik

Die PYXIS Serie bedient den Wunsch vieler Anwender nach einer riggingfähigen Boxed-Kamera. Mit der PYXIS 12K findet nun der Sensor aus der großen URSA CINE 12K in diesem kleineren ...

// 10:47 Di, 25. Nov 2025von Rudi Schmidts

TOP THEMEN //

MEHR ARTIKEL

zur Artikelübersicht >

PASSENDE DISKUSSIONEN

zum Forum >>

Aktuelle News //

News

Mehr Konsistenz Kling Video O1 - Multimodales Modell für generative und editierende Video-KI

Das chinesische KI-Unternehmen Kling AI hat mit Video O1 ein neues Modell vorgestellt, welches das weltweit erste vereinheitlichte System für Videogenerierung und -bearbeitung ...

// 12:53 Mi, 3. Dez 2025von Rudi Schmidts

News

Neue Sony Hybrid-DSLM Sony Alpha 7 V ist da: 33MP Partially Stacked Sensor, 4K 60p ohne Crop und 16 Stops

Mit der Alpha 7 V stellt Sony den Nachfolger seiner erfolgreichen Mittelklasse Vollformat-DSLM mit zahlreichen wichtigen Neuerungen für den Foto- und Videobetrieb vor. Neuer ...

// 15:06 Di, 2. Dez 2025von Rudi Schmidts

zur Newsübersicht >

zum Forum >>

Neueste Artikel //

Aktuelles

Community-Umfrage Sony und slashCam verlosen eine FX2 Cinema Line Kamera

Weihnachten steht vor der Tür - und Sony hat ein besonderes Geschenk für die slashCam Community in Petto: Wer Glück hat, kann sich demnächst eine Sony FX2 unter den Baum legen. ...

// 22:13 Mo, 1. Dez 2025von slashCAM

Aktuelles

Aktuelle Sparangebote Große Übersicht - Black Friday Deals 2025 für Foto+Video - Kameras, Objektive, Zubehör usw.

Heute ist der offizielle Black Friday. Wir haben alle unsere bisherigen Rabatt-News mit aktuellen Angeboten in einer Liste zusammengefasst, um Euch das Finden interessanter Deals ...

// 14:42 Fr, 28. Nov 2025von slashCAM

zur Artikelübersicht >