slashCAM
Administrator
Administrator
Beiträge: 11279

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von slashCAM »


Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. Die Qualität von per KI generierten Stimmen wird immer besser - sie sind kaum mehr zu unterscheiden von echten Stimmen. Sogar existierende Stimmen können anhand von nur wenig Trainingsmaterial inzwischen nahezu realistisch nachgeahmt werden.



Hier geht es zu Artikel auf den slashCAM Magazin-Seiten:
Essays: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?



Frank Glencairn
Beiträge: 26509

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von Frank Glencairn »

Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.
Sapere aude - de omnibus dubitandum



tom
Administrator
Administrator
Beiträge: 1567

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von tom »

Frank Glencairn hat geschrieben: Mo 06 Feb, 2023 19:58 Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.
Welche Dienste hast Du ausprobiert?
slashCAM



Jalue
Beiträge: 1588

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von Jalue »

"Ersetzen synthetische Stimmen bald professionelle Sprecher?"

Ich denke, davon ist auszugehen, zumindest in der Online-Massenproduktion von News und (billigen) Corporate Videos. Eingesetzt werden die Tools ja schon jetzt, z.b. um erste Schnittfassungen für die Abnahme quick and dirty zu vertonen.

Im nächsten Schritt wird es, auch da bin ich mir ziemlich sicher, automatisierten Schnitt auf Basis von Text- oder Spracheingaben geben. So folgen z.B. kurze Newsbeiträge Schema F und das dürfte relativ leicht in Codezeilen zu gießen sein.

Ist das "traurig"? Wenn wir ehrlich sind, reden wir hier ein stückweit auch von Bullshit-Jobs und Betroffene haben noch (!) genug Zeit, sich umzuorientieren. Dorthin, wo individuelle Gestaltung und Qualität gefragt sind.



Frank Glencairn
Beiträge: 26509

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von Frank Glencairn »

tom hat geschrieben: Mo 06 Feb, 2023 20:59
Frank Glencairn hat geschrieben: Mo 06 Feb, 2023 19:58 Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.
Welche Dienste hast Du ausprobiert?
play.ht, murph, Speechelo und Google.

Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS betrifft.
Für deutsches Cloning gibt's - soweit ich weiß - aktuell nur open source - selbst bastel Lösungen.
Sapere aude - de omnibus dubitandum



r.p.television
Beiträge: 3558

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von r.p.television »

Frank Glencairn hat geschrieben: Mo 06 Feb, 2023 19:58 Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.
Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur ansatzweise Emotionen rüberbringen muss, ist das ganze aktuell eigentlich nicht zu gebrauchen.



Brave
Beiträge: 12

Re: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Beitrag von Brave »

Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise erstaunlich, wie gut Texte gesprochen werden. Wir haben es mit medizinischen Texten getestet und auch die Fachbegriffe werden meist gut erkannt.
Bei Azure kann man noch mit einem "Phonembaukasten" einzelne falsche Wörter fixen. Klar reicht die Qualität noch nicht für gescheite Kundenprojekte, aber in Einzelfällen für schnelle Sachen ist das schon ganz gut.
Was noch feht ist, dass die Systeme den Text verstehen und Zusammenhänge zwischen den Sätzen erkennen um die Betonung dementsprechend anzupassen. Das Beispiel aus dem Artikel in dem Video geht schon etwas in die Richtung.



 Aktuelle Beiträge [alle Foren]
 
» Sirui erweitert Vision Prime- und anamorphotische IronStar-Serie
von rush - Sa 11:51
» Flusskreuzfahrt Teil 5: Brandenburg an der Havel
von Riki1979 - Sa 10:34
» DIY - Rüssel MEMS Mikrofon(e)
von ruessel - Sa 8:33
» DIY: DJI Pocket 4 Controller?
von ruessel - Sa 8:22
» Nikon kündigt Firmware Updates mit H.265 Verbesserungen an
von Bildlauf - Fr 17:49
» Kann man noch MUTIG Filme produzieren? MARTIN MOSZKOWICZ
von Bildlauf - Fr 17:45
» ASUS ProArt PA32UCD - 32" 4K-OLED Referenzmonitor für Broadcast mit Dual-12G-SDI
von slashCAM - Fr 17:40
» Flusskreuzfahrt Teil 4: Braunschweig
von Riki1979 - Fr 13:27
» Atomos Sumo Pro 19 erklärt: mobile Cloud Anbindung und NDI
von slashCAM - Fr 10:39
» DaVinci Resolve 21 Photo - Der Anfang vom Ende für Adobe Lightroom?
von rob - Fr 0:18
» Kinefinity VISTA: Kompakte Cine-Cam erklärt: Sensor, Formate, Verfügbarkeit und Preis
von MarcusG - Do 21:05
» Was hast Du zuletzt gekauft?
von Funless - Do 20:07
» DJI Lite X1 und Lite 1 - Neue Einsteiger-Drohnen mit 360°-Hinderniserkennung
von slashCAM - Do 18:21
» DaVinci Resolve 21 Photo ausführlich im Screencapture Workshop erklärt
von slashCAM - Do 17:09
» Handbrake oder gibt es ne bessere Möglichkeit?
von cantsin - Do 16:27
» Cartoni Hyperroll - modulares Roll-Rig für kreative Kamerafahrten
von Darth Schneider - Do 15:18
» FILMFÖRDERUNG FÜR ALLE?
von Nigma1313 - Do 12:24
» BlackRAW Visor App - .braw-Dateien von SSD am iPhone sichten, graden und mehr
von slashCAM - Do 11:57
» Sony HXR-NX80 auf v Mount Anschliessen
von rush - Mi 22:30
» 1000€ Richtmikro für Hochzeitsfilme
von johnnycash89 - Mi 22:26
» Musikvideo mit KI und realen Aufnahmen
von Serge - Mi 20:32
» SmallRig: Gut durchdachtes neues Schulterrig und mobiles Effektlicht erklärt
von Darth Schneider - Mi 18:34
» Adobe erklärt die Details zum neuen Premiere Color Mode
von berlin123 - Mi 18:15
» Kinefinity Vista - kompakte 6K-Vollformat Cine-Cam gesichtet
von Darth Schneider - Mi 18:05
» Flusskreuzfahrt Teil 3: Minden
von Riki1979 - Mi 17:51
» Insta360 Mic Pro - Funkmikro mit farbigem E-Ink-Display und 32-Bit Audio Float
von ruessel - Mi 12:17
» Flusskreuzfahrt, Teil 2: Bremen
von Bildlauf - Mi 11:19
» Gerald Undone geht in Pension
von Rick SSon - Mi 11:17
» Panasonic LUMIX S 40mm F2 - neues, kompaktes Standardobjektiv
von Rick SSon - Mi 11:11
» Der Combo Stand
von pillepalle - Mi 10:15
» Blackmagic im Interview: Resolve Photo, Fairlight Live und Camera App Update erklärt
von Jott - Mi 9:49
» Warum Netzwerken wichtiger ist als Talent! FILMREIF
von 7River - Mi 9:39
» RØDELink II vorgestellt - 32-Bit-Float, UHF-Übertragung von Lectrosonics
von rush - Mi 7:04
» Wo liegen die Schwachstellen bei meinem System?
von blacktopfieber - Di 21:08
» NAB 2026 ...dies und das
von Jörg - Di 15:25