slashCAM
Administrator
Administrator
Beiträge: 11279

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von slashCAM »


Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. Die Qualität von per KI generierten Stimmen wird immer besser - sie sind kaum mehr zu unterscheiden von echten Stimmen. Sogar existierende Stimmen können anhand von nur wenig Trainingsmaterial inzwischen nahezu realistisch nachgeahmt werden.



Hier geht es zu Artikel auf den slashCAM Magazin-Seiten:
Essays: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?



Frank Glencairn
Beiträge: 26509

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von Frank Glencairn »

Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.
Sapere aude - de omnibus dubitandum



tom
Administrator
Administrator
Beiträge: 1513

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von tom »

Frank Glencairn hat geschrieben: Mo 06 Feb, 2023 19:58 Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.
Welche Dienste hast Du ausprobiert?
slashCAM



Jalue
Beiträge: 1528

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von Jalue »

"Ersetzen synthetische Stimmen bald professionelle Sprecher?"

Ich denke, davon ist auszugehen, zumindest in der Online-Massenproduktion von News und (billigen) Corporate Videos. Eingesetzt werden die Tools ja schon jetzt, z.b. um erste Schnittfassungen für die Abnahme quick and dirty zu vertonen.

Im nächsten Schritt wird es, auch da bin ich mir ziemlich sicher, automatisierten Schnitt auf Basis von Text- oder Spracheingaben geben. So folgen z.B. kurze Newsbeiträge Schema F und das dürfte relativ leicht in Codezeilen zu gießen sein.

Ist das "traurig"? Wenn wir ehrlich sind, reden wir hier ein stückweit auch von Bullshit-Jobs und Betroffene haben noch (!) genug Zeit, sich umzuorientieren. Dorthin, wo individuelle Gestaltung und Qualität gefragt sind.



Frank Glencairn
Beiträge: 26509

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von Frank Glencairn »

tom hat geschrieben: Mo 06 Feb, 2023 20:59
Frank Glencairn hat geschrieben: Mo 06 Feb, 2023 19:58 Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.
Welche Dienste hast Du ausprobiert?
play.ht, murph, Speechelo und Google.

Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS betrifft.
Für deutsches Cloning gibt's - soweit ich weiß - aktuell nur open source - selbst bastel Lösungen.
Sapere aude - de omnibus dubitandum



r.p.television
Beiträge: 3545

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von r.p.television »

Frank Glencairn hat geschrieben: Mo 06 Feb, 2023 19:58 Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.
Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur ansatzweise Emotionen rüberbringen muss, ist das ganze aktuell eigentlich nicht zu gebrauchen.



Brave
Beiträge: 12

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von Brave »

Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise erstaunlich, wie gut Texte gesprochen werden. Wir haben es mit medizinischen Texten getestet und auch die Fachbegriffe werden meist gut erkannt.
Bei Azure kann man noch mit einem "Phonembaukasten" einzelne falsche Wörter fixen. Klar reicht die Qualität noch nicht für gescheite Kundenprojekte, aber in Einzelfällen für schnelle Sachen ist das schon ganz gut.
Was noch feht ist, dass die Systeme den Text verstehen und Zusammenhänge zwischen den Sätzen erkennen um die Betonung dementsprechend anzupassen. Das Beispiel aus dem Artikel in dem Video geht schon etwas in die Richtung.



 Aktuelle Beiträge [alle Foren]
 
» Panasonic L-Mount Cine-Kamera als Konkurrent zur Sony FX3 im Anflug?
von cantsin - So 8:21
» Seit Update auf Studio 20: Problem mit Film Look Creator
von scrooge - Sa 20:43
» Nexus G1 - Blackmagic Pocket Cinema Camera 6K im Carbon Cine-Gehäuse
von Darth Schneider - Sa 12:33
» Maxon kauft Autograph / Left Angle
von markusG - Sa 12:19
» Fujifilm GFX Eterna: Sensor, Codecs und Modi der kommenden Cinema-Kamera
von iasi - Sa 12:15
» Canon C400 erhält erweitertes AF-Tracking - und Passwortschutz
von Da_Michl - Sa 7:31
» Videofunksysteme, zB Hollyland SYSCOM 421 - Erfahrungen?
von acrossthewire - Fr 18:59
» Sigma AF Cine Zooms angekündigt
von rob - Fr 11:42
» Sigma 28-45mm T2 FF und 28-105mm T3 FF in Entwicklung
von slashCAM - Fr 10:18
» Alternative Encore ODER Menü für HDD statt BD/DVD
von Mayk - Fr 9:07
» Sony FX2 im Praxistest: Erstmalig neigbarer Sucher, Cine-Gehäuse wie FX3, 33 MP Fullframe CMOS
von rob - Do 21:51
» Panasonic LUMIX S1II und S1IIE für Videofilmer - bis zu 15 Blendenstufen und ARRI Log
von blueplanet - Do 16:31
» Seagate liefert 40 TB Festplatten aus - aber noch nicht für jedermann
von slashCAM - Do 13:21
» Neue Intel Arc B580 and B570 Grafikkarten für 220-250 Dollar vorgestellt
von GaToR-BN - Do 12:26
» Welches Dock für Mac mini M4
von vaio - Do 1:45
» Neue LTO-10 Generation mit 30 TB - eine Alternative zum Festplattenarchiv?
von Tscheckoff - Mi 21:22
» slashCam goes YouTubing: Sony FX2
von Darth Schneider - Mi 18:55
» Erfahrungen gesucht: Nero Platinum 2025
von dienstag_01 - Mi 16:21
» Rode Stereo VideoMic Pro
von 123oliver - Mi 15:52
» Sigma Aizu Prime Line vorgestellt mit T1.3 für Large-Format
von slashCAM - Mi 13:33
» Resolve - A/B-Vergleich in Color
von Phil999 - Mi 12:19
» 3D Drucker Empfehlung für Einsteiger?
von CameraRick - Mi 12:16
» Equipment für Video-Workshops mit Jugendlichen
von pixelschubser2006 - Mi 7:11
» Starwars Rasender Falke zum Verkauf
von Brigo - Di 18:04
» Godox AD21/AD32/AD33 Diffusionspanels - variable ND-Filter für die Beleuchtung
von slashCAM - Di 14:00
» Viltrox DC-A1 - 7" HDMI-Monitor mit 2800 Nits erhältlich
von slashCAM - Mo 18:51
» Blaustich bei manuellem Fokus Panasonic HC-X2
von Ken10Do - Mo 17:57
» Hollyland Lark MAX 2 - Neues drahtlose Mikrofonsystem mit 32-Bit Float und Timecode
von slashCAM - Mo 11:15
» Viltrox bringt 25mm/1.7 APS-C Budget-Objektiv
von cantsin - Mo 10:22
» RØDE Wireless Micro: Ab sofort auch kabellose iPhone-Aufnahme ohne Empfänger
von Ingole - Mo 9:52
» Sennheiser MKE 400
von arcon30 - Mo 7:37
» Ist diese Davinci Schnittrechner Konfiguration 2025 sinnvoll?
von dienstag_01 - So 20:20
» Fokus nicht bis Unendlich?
von Ingole - So 17:17
» Laowa Makro-Objektivsonden jetzt auch mit Zoomfaktor
von slashCAM - So 10:48
» >Der LED Licht Thread<
von freezer - So 10:43