Logo Logo
/// 

Essays : Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

von Mo, 6.Februar 2023 | 4 Seiten | diesen Artikel auf einer Seite lesen

 Virtuelle Stimmen mit menschlichen Emotionen
 Echte Stimmen klonen

Neue Echtzeit 3D-Effekte von Canopus



Virtuelle Stimmen mit menschlichen Emotionen


Die Text-to-Voice Technologie ist so weit fortgeschritten, dass generierte Stimmen kaum mehr (von Menschen) als solche erkannt werden können und somit als "echt" durchgehen - ähnlich wie bei den per KI generierten Bildern und Texten. Das eröffnet völlig neue Anwendungsmöglichkeiten, die bisher verschlossen waren, weil die Stimmen dafür einfach noch nicht gut waren.

Elvenlabs KI versucht durch eine Art Textanalyse zu verstehen, in welcher Gefühlslage - ist der Sprecher traurig, glücklich oder wütend? - ein Satz im Kontext des gesamten Textes gesprochen werden soll. Das funktioniert so gut, dass mit der jetzt erreichten Stimmenqualität (die stetig noch weiter verbessert wird) Audiobücher, Podcasts, Hörspiele oder beliebige andere Texte vertont werden können, auf Wunsch in beliebig vielen unterschiedlichen, jeweils individuellen Stimmvarianten - vielleicht nicht in einer Qualität, die professionellen Sprechern gleichkommt, aber für viele Anwendungen und Hörer dennoch gut genug ist. Auch für den Filmbereich ergeben sich dadurch neue Chancen: so kann etwa der Sprecher eines Dokumentarfilms mit kleinem Budget jetzt durch eine per KI erzeugte Stimme ersetzt oder es können Dubversionen eines Films in anderen Sprachen generiert werden (per KI lassen sich sogar nachträglich die Lippenbewegung der Schauspieler anpassen). Für professionelle Sprecher könnte dieser technische Fortschritt allerdings bedeuten, dass viele Jobs wegfallen und vielleicht nur die besten Sprecher weiter genügend Arbeit finden werden.

Das folgende Beispiel demonstriert die Möglichkeiten einer solchen Sprach-KI für Kreative (erforderte allerdings auch einige Durchläufe und Editierarbeit):






Echte Stimmen klonen


Viele weitere Anwendungsgebiete ergeben sich dadurch, dass schon vorhandene Stimmen in überraschend guter Qualität (zum Beispiel auch Akzente) geklont werden können. Die geklonte Stimme kann einen beliebigen Text sprechen oder alternativ auch Gesprochenes aus einer anderen Stimme konvertieren:



Für Filmemacher bieten sich dadurch interessante Möglichkeiten. So lassen sich nachträgliche Stimmaufnahmen - zum Beispiel zum Dubbing oder zur Korrektur von Versprechern beim Dreh - im Studio machen, ohne dass die Schauspieler vor Ort sein müssten. Da allerdings bisher keine besondere Berechtigung nötig ist, kann im Prinzip jede beliebige Stimme, von der man etwas Audiomaterial hat, simuliert werden, was natürlich schon zu einem kleinen Skandal geführt hat.

Einleitung
Der Missbrauch ist nicht weit


4 Seiten:
Einleitung
Virtuelle Stimmen mit menschlichen Emotionen / Echte Stimmen klonen
Der Missbrauch ist nicht weit
Was kostet es? Können KIs auch deutsch?
  

[6 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
Brave    13:00 am 20.2.2023
Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise...weiterlesen
r.p.television    15:10 am 7.2.2023
Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur...weiterlesen
Frank Glencairn    07:56 am 7.2.2023
play.ht, murph, Speechelo und Google. Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS...weiterlesen
[ Alle Kommentare ganz lesen]

Weitere Artikel:


Editorials: Die IBC 2023 und die KI-Revolution - War da was oder kommt das noch? Mi, 20.September 2023
Die IBC hat gerade wieder ihre Pforten geschlossen - doch von generativer Video KI war noch nichts zu sehen.
Essays: Zombies am Set: James Dean CGI-Puppe spielt Hauptrolle in neuem Film Mi, 13.November 2019
Schlechte Nachrichten für Schauspieler: die Toten spielen ab jetzt wieder mit - und zwar nicht irgendwelche, sondern die Stars. So soll der legendäre James Dean, 1955 im Alter von nur 24 Jahren gestorben, im Film "Finding Jack" eine der Hauptrollen spielen -- doch was heißt hier "spielen"?
Essays: YouTube: Geld nur noch für 100% werbe-freundliche Videos? Di, 19.September 2017
YouTube hat sich zu einem Medium entwickelt, welches von 100erten Millionen Usern täglich genutzt wird – und das für Viele zu einer Alternative zum Fernsehen geworden ist. Doch wo sind die Grenzen dessen, was gezeigt und an was verdient werden darf? Was passiert, wenn YouTube auf Druck von Werbekunden Videoproduzenten die Möglichkeit verweigert Geld mit ihren Videos zu verdienen?
Essays: Kamera-Trends für 2017 Fr, 7.April 2017
Das Jahr hat ja mit der Panasonic GH5 und der Blackmagic URSA Mini Pro schon aufregend angefangen. Doch was soll denn da eigentlich noch im Rest des Jahres passieren?
Essays: Kühler Kamera-Herbst 2016 Mo, 18.Juli 2016
Essays: Post NAB 2016: Dynamikumfang, 10-Bit Displays, HDR und Dual Gain Mi, 25.Mai 2016
Essays: Die Non-Gamechanger 2015 - Ein Blick in die Glaskugel Do, 27.November 2014
Essays: Transformers: Spektakel für die Massen oder... Avantgarde? Do, 7.August 2014
Essays: Der Rundumschlag - Sony A7s Mo, 7.April 2014
Essays: Seitenwechsel - Warum nicht 30p? Di, 4.Februar 2014
Essays: Logos und Design - Weniger ist mehr Mo, 22.August 2011
Essays: Ramen R.I.P Di, 2.November 2010


[nach oben]


[nach oben]















Artikel-Übersicht



Artikel-Kategorien:



update am 24.September 2023 - 18:57
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*