slashCAM
Administrator
Administrator
Beiträge: 11262

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von slashCAM »


Generative KIs können mittlerweile Texte erstellen, die wie aus Menschenhand klingen, fotorealistische Bilder aus dem Nichts zaubern und nichtzuletzt - wie schon öfters a...
Bild
Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz



ChrisS
Beiträge: 102

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von ChrisS »

Das ist sicherlich ein Thema, keine Frage. Nur hat die Sprache "Deutsch" noch eine Galgenfrist. Es gibt nichts, das in deutsch wirklich gut klingt. Geschweige denn mit Emotionen. Von daher haben die deutschsprachigen Sprecher noch die Möglichkeit, die Rahmenbedingungen mitzugestalten. Abgesehen davon hat die deutsche Sprecherbranche schon immer nur ein einziges Thema gehabt: "Geld". Angefangen mit "Du bist ja kein professioneller Sprecher" und jetzt "KI". YT hat gezeigt, dass "authentisch" auch mit anderen Mitteln geht. Professionelle Sprecher werden immer einen Platz haben, davon bin ich überzeugt. Aber die Brot und Butter Jobs, werden weniger. Und wenn wir mal in der Geschichte zurück gehen: bei Derrick habe ich schon immer gewusst, das muss doch eine Computerstimme sein! :-)



Viteq
Beiträge: 7

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Viteq »

Letztes Jahr hatte ich in einem Projekt ein AI-Voiceover Tool gesucht, das auch das Sprechervideos generieren kann.
Hatte mich für Synthesia entschieden und es nicht bereut: https://www.synthesia.io/
Für 30 US Dollar gab es 10 Minuten Audio/Video. Es ist eine so unglaubliche Zeit/Geldersparnis und die Qualität ist schon sehr gut.
Manchmal gibt es allerdings Wörter, die die Software nicht richtig aussprechen kann. Bei deutscher Sprache öfters als in Englisch.



CineMika
Beiträge: 157

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von CineMika »

Vorausgesetzt die Qualität stimmt, gäbe es durchaus ein sinnvolles Szenario

Im Falle eines verstorbenen bekannten Synchronsprechers, könnten die zugehörigen Original Schauspieler noch in gewohnter Manier synchronisiert werden, vorausgesetzt die Erben sind damit einverstanden.
Es ist immer sehr befremdlich und kontraproduktiv, wenn eine sehr bekannte Figur auf einmal eine andere Stimme hat



Frank Glencairn
Beiträge: 23204

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

Sapere aude - de omnibus dubitandum



Skeptiker
Beiträge: 5959

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Skeptiker »

Frank Glencairn hat geschrieben: Mo 22 Mai, 2023 06:41 -> freie Thorsten-Stimme
Als Sprecher-Stimme wäre das nicht meine erste Wahl. Aber dann denkt man sich "Kost' ja nichts - warum eigentlich nicht!".
KI als Methode, sich stimmlich zu vervielfachen und als "Mem" (ist 'Muster' der richtige Ausdruck?) über die Welt zu verstreuen (Thorsten überall). Willkommener Selbst-Multiplier für Narzissten und Egozentriker?



macaw
Beiträge: 1259

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von macaw »



blindcat
Beiträge: 32

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Wegen des KI Beitrags zur NAB hatte ich gerade mal so rumgeschaut. Über Thorsten stolpert man dabei unbedingt. Ich glaub allerding eher weniger dass er sich damit in den Vordergrund spielen will. Ich glaube eher, dass der das Thema geil findet und es pushen will.
Denn ... es fällt mir schwer eine Sprach KI zu finden, die lokal funktioniert. Es nützt leider nichts wenn die ganze Welt auf einer Ki Welle schwimmt nur um betriebswirtschaftlich organisierten Unternehmen noch mehr Daten in den Rachen zu schmeissen. Bei der Suche ist es echt eng geworden. Ich hätte auch in ein kommerzeilles Produkt investiert, wenn es denn lokal installierbar gewesen wäre. Aber fast nix, nada. Und dann bleibt doch wieder fast nur OpenSource, und wenn es dann deutsch werden soll, ist Thorsten eben eine der wenigen Optionen. Aber selbst mit Open Source ist das Installieren einer Sprach KI kein NoBrainer wie bei Automatic1111/StableDiffusion oder Oobabooga/llama und Co.
Oobabooga installiert unter Umständen ein text to speech system mit. Klang aber nicht. Also das, was hier gerne in den News als geile Sprach Ki angefeuert wird, hab ich qualitativ eher selten gefunden. Bei einigen Cloud basierten Diensten muss ich sagen, kam bei den Anjuck-Demos im Web tatsächlich etwas raus was ... cool klang. Aber was viele da nun bei Youtube unter ihre Videos zimmern klingt doch noch eher nach Maschinengewehr.

Hat irgendjemand einen guten Tip für eine lokale Sprach-KI die so nach 2023 klingt? Entweder kommerziell (unter 500 Eu wäre schon angemessen) oder besser OpenSource?
Grüße,
Frankie



Frank Glencairn
Beiträge: 23204

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

Ich hab auch noch nix für Deutsch gefunden, daß nicht entweder, ziemlich kompliziert (für Nichtprogrammierer) zu installieren und bedienen ist, oder halt Online mit eher unbefriedigten Ergebnissen.

Aktuell halte ich ich mit Google TTS über Wasser, ist IMHO aktuell das beste für Deutsch - ist aber noch nicht ready for prime time.
Sapere aude - de omnibus dubitandum



macaw
Beiträge: 1259

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von macaw »

blindcat hat geschrieben: Di 23 Mai, 2023 07:06 Es nützt leider nichts wenn die ganze Welt auf einer Ki Welle schwimmt nur um betriebswirtschaftlich organisierten Unternehmen noch mehr Daten in den Rachen zu schmeissen.
Eine Firma, die nicht betriebswirtschaftlich organisiert ist, ist entweder bald Pleite und/oder hat sehr bald große Probleme mit dem Finanzamt, weil es sich dann um "liebhaberei" handelt (ist tatsächlich so definiert, wenn keine Gewinnerzielungsabsichten vorliegen) - spaß beiseite, ich verstehe vollkommen, was Du meinst, ich denke bei solchen Firmen primär an Gewinnmaximierung und ich erkenne, welche potentiell existenzbedrohende Situation sich Firmen da schaffen, wenn sie einen zunehmend wachsenden Anteil ihrer Produktionsprozesse irgendwelchen Unternehmen am anderen Ende der Welt anvertrauen. Je nach Komplexität dürfte es da nicht wenige Fälle geben, wo der Ausfall oder Angriff der Dienste die sofortige Pleite bedeuten könnte, bspw. wenn man sich in der Endfertigung befindet und auf einmal absolut notwendige Änderungen des Sprechertextes gebraucht werden bzw., wenn das soweit ist, k.i. generierte Bilder, Videos, Musik etc. Ich stecke in diesem Moment z.B. in der Endfertigung eines sehr umfangreichen Projekts für eine gewisse deutsche Airline, wo morgen ein Event in Frankfurt stattfindet wo es gespielt werden muss, es wird noch immer an letzten Schnittänderungen, Motion Design, Sounddesign, Online und Grading gearbeitet...



blindcat
Beiträge: 32

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Ja,
nicht überbewerten den Satz :-)

Grundsätzlich habe ich nichts dagegen, dass Firmen Geld verdienen. Ich würde mich ja auch freuen, wenn es einen guten Tipp für eine Kaufsoftware in dem Bereich geben würde.
Grundsätzlich bin ich aber kein Freund davon, dass die Menschen sich das "kostenlose" Internet durch ihre Datenspenden kaufen, oder sogar trotz Datenspende noch monatliche Gebühren zahlen. Also bei allen möglichen Services seit annodazumal. Punkt.
Bei den KIs sehe ich natürlich das Kernproblem. Trainingsdatensätze. Und wenn es quasi fertig ist, noch mehr Datensätze zum Verfeinern. Das Online Services da das Instrument schlechthin sind, liegt irgendwie auf der Hand. Habe ich eine lokale Installation könnte maximal (wenn den Unterbau und Model dafür ausgelegt sind) ein lokales Training oder (Weiter)-Learning stattfinden. Das ist weder effizient noch hat eben der Hersteller etwas davon.
Wie dem auch sei. Ich würde es gerne lokal haben. Eine Online Demo ist mir beim rumsuchen untergekommen (hab mir natürlich nicht gemerkt welche). Die war wirklich ... gut. Ich glaube es war ein englisches Modell und es sprach wirklich natürlich. Manchmal ist irgendwie nicht klar ob da alte TTS Engines verwendet werden oder wirklich KI/AI basierte zum Einsatz kommen. Also bei dem Grad von Natürlichkeit möchte ich mir jedenfalls ein gutes KI Modell vorstellen. Leider war eben auch das ein Online Service bei dem man einen Zugangsvertrag abschließen soll. Schade.

@rob: Ihr habt ja seit einiger Zeit eine sehr intensive Berichterstattung von der KI Front. Ich finde auch Forschung und Paper spannend, aber bei dem ganzen Hype müsste man doch annehmen, dass es einen riesigen Sack voll Produkte gibt? Und vielleicht auch ein paar lokale? Aber wie man auch guckt, es sieht so aus als ob eine Marktübersicht für letzteres tatsächlich sehr, sehr überschaubar wäre. Also so, wie Frank Glencairn es auch gesagt hat, es sollte schon dann auch leicht installierbar sein. Nicht: installieren sie erst Jupyter Notebooks, dazu noch drei andere Python ENV Umgebungen, installieren sie GIT und melden sie sich an .... etc. Soetwas gehört nicht zwingend zu dieser Kategorie. Nicht dass es nicht machbar wäre, aber ... meistens steht das Ergebnis nicht im Verhältnis zum Aufwand. Denn so überraschend gute Ergebnisse die KIs auch schon produzieren, so oft ist doch noch Müll dabei. Sei es ein unbrauchbares Bild in einem GAN, ein völlig gelogener Text auf GPT4 oder eben ein Sprecher der eher vom Melmac stammt als das er als Ersatz für echtes sprechen taugt. Klar, wenn nach drei Tagen Prompt-Tuning dann eben doch eines dieser Aha-Effekt Dinger aus der KI kommt, dann heisst es, die kann das. Hab ich dann aber vielleicht in 2 einhalb Tagen mit nem Grafiktablett und nem alten (lokalen, gekauften, nicht gemieteten, nicht um Onlineservices beschnittenem (wie Gesichtserkennung und Kartenservice in Lightroom CS6)) Photoshop auch hinbekommen.

Um auch das noch einmal klarzustellen, ich fände das Verdrängen von Sprechern durch KIs auch doof. Ich stelle mir nur gerade vor, dass ich ein Video sowohl auf deutsch als auch auf englich bereitsstellen würde. Das wäre ein HowTo zum Umbau von Gitarrenverstärkern. Wenn ich eine englische KI Sprechervoice hätte, würde ich die nehmen um dem Zuschauer mein denglisch zu ersparen. Einen bezahlten Sprecher würde ich dafür nicht einkaufen. Ich ersetze ihn also nicht. Ich würde nur die englische Ausprache etwas "beautyfien" :-) Und selbst wenn eine gute deutsche Stimme bei wäre, würde ich den deutschen Text dann doch lieber selbst einsprechen. Weil da spricht nix gegen :-)
So. Sorry jetzt habe ich mich ausgeheult. Wollte schon immer mal nach Tips für existierende lokale KI Anwendungen fragen, hatte aber immer mein PW nicht im Kopf.
Liebe Grüße,
Frankie



ChrisS
Beiträge: 102

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von ChrisS »

Letztendlich ist es nicht aufzuhalten. Ob gut oder schlecht, für den einen oder anderen, danach fragt niemand. Siehe Studer-Revox, die Ende der 90er keine einzige Bandmaschine mehr verkauft haben und pleite gingen. Heute sind sie wieder da! Also, es hilft ja nix zu heulen - man sollte eher seine Fähigkeiten und Möglichkeiten nutzen, sich neuen Gegebenheiten anzupassen, so man diese nicht beeinflussen oder verhindern kann. Jetzt liegt es an den Sprechern, sich neu zu erfinden, anstatt den Laden zu zumachen.



blindcat
Beiträge: 32

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Was die Sprecher angeht, wäre es eine gute Idee wenn die Agenturen tätig werden und Modelle ihrer Sprecher erstellen, die schützen lassen und sie dann alternativ zur Studio-Buchung angemessen zur Verfügung stellen. Dann wäre dem Sprecher und macaw in seinem Setting geholfen. Vermutlich liegt der Knackpunkt in der Formulierung "schützen lassen".

Ansonsten na klar interssiert mich das auch sehr. Deswegen suche ich ja lokale Varianten.
@Frank: Stable Diffusion mit Automatic 1111 läuft ziemlich ... einfach. Wenn es mal um das ausprobieren geht. Und der Installer von Oobabooga (ChatGPT artige Textmodelle) läuft gerade ebenso unkompliziert durch. Beide Varianten installieren sich offenbar ohne Systemeingriff. Wenn es nicht gefällt, Ordner löschen und weg ist es.
lg
Frankie



Frank Glencairn
Beiträge: 23204

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

blindcat hat geschrieben: Di 23 Mai, 2023 17:07
@Frank: Stable Diffusion mit Automatic 1111 läuft ziemlich ... einfach. Wenn es mal um das ausprobieren geht. Und der Installer von Oobabooga (ChatGPT artige Textmodelle) läuft gerade ebenso unkompliziert durch. Beide Varianten installieren sich offenbar ohne Systemeingriff. Wenn es nicht gefällt, Ordner löschen und weg ist es.
Ich weiß, hab ich alles schon durch (und wieder gelöscht), war spannend und unterhaltsam, hab allerdings für beides (außer Spieltrieb) keine wirkliche Anwendung - was ich brauche ist TTS und Voice Cloning in Deutsch.
Sapere aude - de omnibus dubitandum



blindcat
Beiträge: 32

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Sag Bescheid wenn Dir was unterkommt ... :-)



 Aktuelle Beiträge [alle Foren]
 
» Was schaust Du gerade?
von klusterdegenerierung - Sa 2:12
» Behind The Boom with Boom Operator Ken Strain | URSA Exclusive
von iasi - Sa 1:01
» Fadenvorhang animieren- wie mache ich das?
von buster007 - Fr 22:38
» Eigenes kartenspiel mit software erstellen.
von freezer - Fr 22:36
» Sendung Ersatzteile aus nicht EU Ländern nach Deutschland
von soulbrother - Fr 21:01
» Lumix S5II Bildzittern, Pulsieren
von Peter-LS - Fr 20:58
» Neues Blackmagic DaVinci Resolve 19 bringt über 100 neue Funktionen
von Frank Glencairn - Fr 20:58
» - Erfahrungsbericht - DJI Pocket 3
von Frank Glencairn - Fr 20:09
» Davinci Resolve, Color Card und Monitorkalibrierung
von Frank Glencairn - Fr 19:25
» Ich brauche dringend Teilnehmende an meiner Studie für meine Masterarbeit
von freezer - Fr 19:05
» Motor Smart: Intelligenter AutoFocus-Motor von PDMovie nutzt LiDAR und KI
von roki100 - Fr 18:04
» AMD Radeon RX 7900 GRE mit 16GB und 256 Bit - preiswerte Grafikkarte für DaVinci Resolve?
von iasi - Fr 17:27
» Videointerview mit dem eigenem KI-Zwilling
von Frank Glencairn - Fr 16:44
» Panasonic S5 - Allgemeine Fragen, Tipps und Tricks, Zeig deine Bilder/Videos usw.
von roki100 - Fr 15:16
» Flackern bei der Digitalisierung - USB Grabby
von Laboriosa - Fr 13:36
» Aktuelle rechtliche Situation für AI generierte Inhalte
von Frank Glencairn - Fr 10:57
» Kamera Kaufberatung Budget ca. 2000€
von suchor - Fr 9:47
» LVX AURORA VISTA Primes - Re-Housing und Vintage Tuning jetzt auch in Europa
von slashCAM - Fr 9:39
» Was hast Du zuletzt gekauft?
von klusterdegenerierung - Fr 7:14
» Nach 7 Jahren mit der OG BMPCC finde ich das Bild noch immer schön.
von Frank Glencairn - Fr 7:02
» Apple Vision Pro: Verkaufsstart (USA) ab Februar für 3.499,- Dollar + neuer Werbeclip
von Darth Schneider - Fr 5:57
» Linsen (Vintage, Anamorphic & Co.)
von Funless - Do 23:58
» H264 4K Minischneideprogramm Empfehlung? Freeware?
von Videopower - Do 22:31
» VideoGigaGAN - Adobe zeigt generative KI Super Resolution für Bewegtbilder
von r.p.television - Do 21:25
» Hi 8 Videos schärfer machen
von Manschy - Do 20:52
» WORKFLOW: Stockfootage & Resolve
von freezer - Do 19:20
» AMDs Notebook APU Strix Halo - besser als Apples M3 Pro Chip?
von berlin123 - Do 17:34
» AJA: ColorBox 2.1 ACES-Workflow und DRM2 für das DIT-Cart erklärt
von slashCAM - Do 15:48
» Insta360 X4 360°-Action-Kamera filmt in 8K
von -paleface- - Do 14:19
» Ambisonics in Resolve
von Axel - Do 12:09
» MP4 Video verlustfrei exportieren
von Frank Glencairn - Do 10:54
» NAB 2024 Neuigkeiten
von Frank Glencairn - Do 10:23
» Was hörst Du gerade?
von soulbrother - Do 8:55
» Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.
von cantsin - Do 8:39
» Messevideo: Atomos NINJA PHONE erklärt
von Frank Glencairn - Do 6:06