Noch was unklar? Dann in unserem Forum nachfragen
Zum Original-Thread / Zum Artikel-Fragen-Forum

Infoseite // Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Newsmeldung von slashCAM:

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. Die Qualität von per KI generierten Stimmen wird immer besser - sie sind kaum mehr zu unterscheiden von echten Stimmen. Sogar existierende Stimmen können anhand von nur wenig Trainingsmaterial inzwischen nahezu realistisch nachgeahmt werden.

Hier geht es zum slashCAM Artikel:
Essays: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Antwort von Frank Glencairn:

Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.

Antwort von tom:

"Frank Glencairn" hat geschrieben:
Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix. Welche Dienste hast Du ausprobiert?

Antwort von Jalue:

"Ersetzen synthetische Stimmen bald professionelle Sprecher?"

Ich denke, davon ist auszugehen, zumindest in der Online-Massenproduktion von News und (billigen) Corporate Videos. Eingesetzt werden die Tools ja schon jetzt, z.b. um erste Schnittfassungen für die Abnahme quick and dirty zu vertonen.

Im nächsten Schritt wird es, auch da bin ich mir ziemlich sicher, automatisierten Schnitt auf Basis von Text- oder Spracheingaben geben. So folgen z.B. kurze Newsbeiträge Schema F und das dürfte relativ leicht in Codezeilen zu gießen sein.

Ist das "traurig"? Wenn wir ehrlich sind, reden wir hier ein stückweit auch von Bullshit-Jobs und Betroffene haben noch (!) genug Zeit, sich umzuorientieren. Dorthin, wo individuelle Gestaltung und Qualität gefragt sind.

Antwort von Frank Glencairn:

tom hat geschrieben:
"Frank Glencairn" hat geschrieben:
Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix. Welche Dienste hast Du ausprobiert? play.ht, murph, Speechelo und Google.

Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS betrifft.
Für deutsches Cloning gibt's - soweit ich weiß - aktuell nur open source - selbst bastel Lösungen.

Antwort von r.p.television:

"Frank Glencairn" hat geschrieben:
Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix. Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur ansatzweise Emotionen rüberbringen muss, ist das ganze aktuell eigentlich nicht zu gebrauchen.

Antwort von Brave:

Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise erstaunlich, wie gut Texte gesprochen werden. Wir haben es mit medizinischen Texten getestet und auch die Fachbegriffe werden meist gut erkannt.
Bei Azure kann man noch mit einem "Phonembaukasten" einzelne falsche Wörter fixen. Klar reicht die Qualität noch nicht für gescheite Kundenprojekte, aber in Einzelfällen für schnelle Sachen ist das schon ganz gut.
Was noch feht ist, dass die Systeme den Text verstehen und Zusammenhänge zwischen den Sätzen erkennen um die Betonung dementsprechend anzupassen. Das Beispiel aus dem Artikel in dem Video geht schon etwas in die Richtung.

Noch was unklar? Dann in unserem Forum nachfragen
Zum Original-Thread / Zum Artikel-Fragen-Forum

Antworten zu ähnlichen Fragen //

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz
Professionelle KI-Sprecher für Jedermann? MARVEL.ai
Video-Editing per Textkommando: Nach Text-zu-Bild kommt Text-zu-Video
Vegas Pro Update: Unterstützung von ProRes Codecs, Sprache-zu-Text (beta)
Kostenloses Nvidia KI-Tool: Gesichter einfach per Sprache in Echtzeit animieren
biete mich als Sprecher an.
Davinci Resolve .mov Clips ersetzen mit .braw Clips
VFX leicht gemacht: mit KI Gesichter animieren und Stimmen synthetisieren
Singen mit berühmten Stimmen - YouTube soll an Voice-Cloning-KI arbeiten
KI wird Filmemacher nicht ersetzen (sagt Ben Affleck)
Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
Aus Text wird nun auch Audio: Stable Audio generiert Musik und Soundeffekte per KI
Effekt-Kette: Compressor =>Sprache oder Musik => Limiter
Werbeclip mit Rechten von Dritten (Sprache, Musik, Bild, Videoclip))
ZDF ab 01.06.22 mit neuem Angebot "Klare Sprache"

KI Funktionen kostenpflichtig Affinity Photo, Designer und Publisher ab sofort in einer kostenlosen App

Wie von uns bereits vor drei Wochen vermutet stellt Affinity ab sofort seine gesamte Suite für Mac und PC kostenlos zur Verfügung. Damit gibt es nun eine sehr potente ...

// 19:41 Do, 30. Okt 2025von Rudi Schmidts

News

Vorerst nur in China DJI Neo 2 bringt Rundum-Hinderniserkennung samt LiDAR

Wie vorhergesagt und geteasert, hat DJI soeben die neue intelligente 4K-Selfie-Drohne Neo 2 offiziell vorgestellt - ungewöhnlicherweise aber nicht weltweit, sondern - wohl vorerst ...

// 17:40 Do, 30. Okt 2025von Thomas Richter

News

Schneller als M3 Ultra? Künftige Xbox Next: Vollwertiger Windows-PC mit Potenzial für Videobearbeitung

Laut sich verdichtender Gerüchte und Berichte, unter anderem von den bekannten Quellen Moore&s Law Is Dead und Windows Central, plant Microsoft eine fundamentale Neuausrichtung ...

// 11:03 Mi, 29. Okt 2025von Rudi Schmidts

Test

Mobiles Filmen iPhone 17 Pro Max im Praxistest: ProRes RAW, Apple Log 2 - inkl. DJI Osmo Pocket Vergleich

Mit dem iPhone 17 Pro Max präsentiert Apple seinen neuesten Smartphone-Boliden und dies mit einer ganzen Reihe von spannenden Upgrades für mobile Video-User: Erstmalig steht eine ...

// 12:20 Mi, 22. Okt 2025von Rob

Aktuelle News //

News

Mobile Video-Produktion RØDE Wireless Microphone Camera Kit - Funkmikro-Set für Kameras

RØDE hat mit dem Wireless Micro Camera Kit ein speziell auf Videoproduzenten zielendes Set seines Wireless Micro Funkmikrofonsystems vorgestellt. Schon seit Juli hatte RØDE ...

// 12:00 So, 2. Nov 2025von Thomas Richter

News

Open-Source-Projekt Graphite - kostenloser Grafik-Editor von Photoshop bis Motion

Wir berichteten ja gerade erst über die neue kostenlose Affinity Suite, welche eine potente Bildbearbeitung, einen Vektorgrafik-Editor sowie sogar eine komplette Publishing-...

// 14:59 Sa, 1. Nov 2025von Rudi Schmidts

zur Newsübersicht >

Neueste Artikel //

Test

Alive and Kicking Blackmagic Pocket Cinema Camera 4K Sensor-Test - Wiedersehen mit ProRes RAW

Nachdem Blackmagic seinem Pocket Kamera-Klassiker ein unerwartetes ProRes RAW Update beschert hat, fragen wir uns, für wen sich das neue RAW Format eigentlich lohnt...

// 13:49 Fr, 31. Okt 2025von Rudi Schmidts

Meinung

Sony FX3 II = FX6? Sony FX3 Nachfolger: Wie wichtig ist Open Gate wenn ein elektronisch verstellbarer ND Filter möglich wäre?

Panasonic hat es gefühlt schon ewig, Arri sowieso, Blackmagic auch, Canon hat soeben seine erste Kamera „mit“ herausgebracht und sogar das neue iPhone 17 Pro Max hat es: Die Rede ...

// 16:07 Mi, 29. Okt 2025von Rob

zur Artikelübersicht >

Infoseite // Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Antworten zu ähnlichen Fragen //

KI Funktionen kostenpflichtig Affinity Photo, Designer und Publisher ab sofort in einer kostenlosen App

Vorerst nur in China DJI Neo 2 bringt Rundum-Hinderniserkennung samt LiDAR

Schneller als M3 Ultra? Künftige Xbox Next: Vollwertiger Windows-PC mit Potenzial für Videobearbeitung

Mobiles Filmen iPhone 17 Pro Max im Praxistest: ProRes RAW, Apple Log 2 - inkl. DJI Osmo Pocket Vergleich

Mobile Video-Produktion RØDE Wireless Microphone Camera Kit - Funkmikro-Set für Kameras

Open-Source-Projekt Graphite - kostenloser Grafik-Editor von Photoshop bis Motion

Alive and Kicking Blackmagic Pocket Cinema Camera 4K Sensor-Test - Wiedersehen mit ProRes RAW

Sony FX3 II = FX6? Sony FX3 Nachfolger: Wie wichtig ist Open Gate wenn ein elektronisch verstellbarer ND Filter möglich wäre?

ARTIKEL

THEMEN