slashCAM
Administrator
Administrator
Beiträge: 11269

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von slashCAM »


Generative KIs können mittlerweile Texte erstellen, die wie aus Menschenhand klingen, fotorealistische Bilder aus dem Nichts zaubern und nichtzuletzt - wie schon öfters a...
Bild
Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz



ChrisS
Beiträge: 102

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von ChrisS »

Das ist sicherlich ein Thema, keine Frage. Nur hat die Sprache "Deutsch" noch eine Galgenfrist. Es gibt nichts, das in deutsch wirklich gut klingt. Geschweige denn mit Emotionen. Von daher haben die deutschsprachigen Sprecher noch die Möglichkeit, die Rahmenbedingungen mitzugestalten. Abgesehen davon hat die deutsche Sprecherbranche schon immer nur ein einziges Thema gehabt: "Geld". Angefangen mit "Du bist ja kein professioneller Sprecher" und jetzt "KI". YT hat gezeigt, dass "authentisch" auch mit anderen Mitteln geht. Professionelle Sprecher werden immer einen Platz haben, davon bin ich überzeugt. Aber die Brot und Butter Jobs, werden weniger. Und wenn wir mal in der Geschichte zurück gehen: bei Derrick habe ich schon immer gewusst, das muss doch eine Computerstimme sein! :-)



Viteq
Beiträge: 7

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Viteq »

Letztes Jahr hatte ich in einem Projekt ein AI-Voiceover Tool gesucht, das auch das Sprechervideos generieren kann.
Hatte mich für Synthesia entschieden und es nicht bereut: https://www.synthesia.io/
Für 30 US Dollar gab es 10 Minuten Audio/Video. Es ist eine so unglaubliche Zeit/Geldersparnis und die Qualität ist schon sehr gut.
Manchmal gibt es allerdings Wörter, die die Software nicht richtig aussprechen kann. Bei deutscher Sprache öfters als in Englisch.



CineMika
Beiträge: 169

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von CineMika »

Vorausgesetzt die Qualität stimmt, gäbe es durchaus ein sinnvolles Szenario

Im Falle eines verstorbenen bekannten Synchronsprechers, könnten die zugehörigen Original Schauspieler noch in gewohnter Manier synchronisiert werden, vorausgesetzt die Erben sind damit einverstanden.
Es ist immer sehr befremdlich und kontraproduktiv, wenn eine sehr bekannte Figur auf einmal eine andere Stimme hat



Frank Glencairn
Beiträge: 24073

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

Sapere aude - de omnibus dubitandum



Skeptiker
Beiträge: 6268

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Skeptiker »

Frank Glencairn hat geschrieben: Mo 22 Mai, 2023 06:41 -> freie Thorsten-Stimme
Als Sprecher-Stimme wäre das nicht meine erste Wahl. Aber dann denkt man sich "Kost' ja nichts - warum eigentlich nicht!".
KI als Methode, sich stimmlich zu vervielfachen und als "Mem" (ist 'Muster' der richtige Ausdruck?) über die Welt zu verstreuen (Thorsten überall). Willkommener Selbst-Multiplier für Narzissten und Egozentriker?



macaw
Beiträge: 1467

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von macaw »



blindcat
Beiträge: 34

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Wegen des KI Beitrags zur NAB hatte ich gerade mal so rumgeschaut. Über Thorsten stolpert man dabei unbedingt. Ich glaub allerding eher weniger dass er sich damit in den Vordergrund spielen will. Ich glaube eher, dass der das Thema geil findet und es pushen will.
Denn ... es fällt mir schwer eine Sprach KI zu finden, die lokal funktioniert. Es nützt leider nichts wenn die ganze Welt auf einer Ki Welle schwimmt nur um betriebswirtschaftlich organisierten Unternehmen noch mehr Daten in den Rachen zu schmeissen. Bei der Suche ist es echt eng geworden. Ich hätte auch in ein kommerzeilles Produkt investiert, wenn es denn lokal installierbar gewesen wäre. Aber fast nix, nada. Und dann bleibt doch wieder fast nur OpenSource, und wenn es dann deutsch werden soll, ist Thorsten eben eine der wenigen Optionen. Aber selbst mit Open Source ist das Installieren einer Sprach KI kein NoBrainer wie bei Automatic1111/StableDiffusion oder Oobabooga/llama und Co.
Oobabooga installiert unter Umständen ein text to speech system mit. Klang aber nicht. Also das, was hier gerne in den News als geile Sprach Ki angefeuert wird, hab ich qualitativ eher selten gefunden. Bei einigen Cloud basierten Diensten muss ich sagen, kam bei den Anjuck-Demos im Web tatsächlich etwas raus was ... cool klang. Aber was viele da nun bei Youtube unter ihre Videos zimmern klingt doch noch eher nach Maschinengewehr.

Hat irgendjemand einen guten Tip für eine lokale Sprach-KI die so nach 2023 klingt? Entweder kommerziell (unter 500 Eu wäre schon angemessen) oder besser OpenSource?
Grüße,
Frankie



Frank Glencairn
Beiträge: 24073

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

Ich hab auch noch nix für Deutsch gefunden, daß nicht entweder, ziemlich kompliziert (für Nichtprogrammierer) zu installieren und bedienen ist, oder halt Online mit eher unbefriedigten Ergebnissen.

Aktuell halte ich ich mit Google TTS über Wasser, ist IMHO aktuell das beste für Deutsch - ist aber noch nicht ready for prime time.
Sapere aude - de omnibus dubitandum



macaw
Beiträge: 1467

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von macaw »

blindcat hat geschrieben: Di 23 Mai, 2023 07:06 Es nützt leider nichts wenn die ganze Welt auf einer Ki Welle schwimmt nur um betriebswirtschaftlich organisierten Unternehmen noch mehr Daten in den Rachen zu schmeissen.
Eine Firma, die nicht betriebswirtschaftlich organisiert ist, ist entweder bald Pleite und/oder hat sehr bald große Probleme mit dem Finanzamt, weil es sich dann um "liebhaberei" handelt (ist tatsächlich so definiert, wenn keine Gewinnerzielungsabsichten vorliegen) - spaß beiseite, ich verstehe vollkommen, was Du meinst, ich denke bei solchen Firmen primär an Gewinnmaximierung und ich erkenne, welche potentiell existenzbedrohende Situation sich Firmen da schaffen, wenn sie einen zunehmend wachsenden Anteil ihrer Produktionsprozesse irgendwelchen Unternehmen am anderen Ende der Welt anvertrauen. Je nach Komplexität dürfte es da nicht wenige Fälle geben, wo der Ausfall oder Angriff der Dienste die sofortige Pleite bedeuten könnte, bspw. wenn man sich in der Endfertigung befindet und auf einmal absolut notwendige Änderungen des Sprechertextes gebraucht werden bzw., wenn das soweit ist, k.i. generierte Bilder, Videos, Musik etc. Ich stecke in diesem Moment z.B. in der Endfertigung eines sehr umfangreichen Projekts für eine gewisse deutsche Airline, wo morgen ein Event in Frankfurt stattfindet wo es gespielt werden muss, es wird noch immer an letzten Schnittänderungen, Motion Design, Sounddesign, Online und Grading gearbeitet...



blindcat
Beiträge: 34

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Ja,
nicht überbewerten den Satz :-)

Grundsätzlich habe ich nichts dagegen, dass Firmen Geld verdienen. Ich würde mich ja auch freuen, wenn es einen guten Tipp für eine Kaufsoftware in dem Bereich geben würde.
Grundsätzlich bin ich aber kein Freund davon, dass die Menschen sich das "kostenlose" Internet durch ihre Datenspenden kaufen, oder sogar trotz Datenspende noch monatliche Gebühren zahlen. Also bei allen möglichen Services seit annodazumal. Punkt.
Bei den KIs sehe ich natürlich das Kernproblem. Trainingsdatensätze. Und wenn es quasi fertig ist, noch mehr Datensätze zum Verfeinern. Das Online Services da das Instrument schlechthin sind, liegt irgendwie auf der Hand. Habe ich eine lokale Installation könnte maximal (wenn den Unterbau und Model dafür ausgelegt sind) ein lokales Training oder (Weiter)-Learning stattfinden. Das ist weder effizient noch hat eben der Hersteller etwas davon.
Wie dem auch sei. Ich würde es gerne lokal haben. Eine Online Demo ist mir beim rumsuchen untergekommen (hab mir natürlich nicht gemerkt welche). Die war wirklich ... gut. Ich glaube es war ein englisches Modell und es sprach wirklich natürlich. Manchmal ist irgendwie nicht klar ob da alte TTS Engines verwendet werden oder wirklich KI/AI basierte zum Einsatz kommen. Also bei dem Grad von Natürlichkeit möchte ich mir jedenfalls ein gutes KI Modell vorstellen. Leider war eben auch das ein Online Service bei dem man einen Zugangsvertrag abschließen soll. Schade.

@rob: Ihr habt ja seit einiger Zeit eine sehr intensive Berichterstattung von der KI Front. Ich finde auch Forschung und Paper spannend, aber bei dem ganzen Hype müsste man doch annehmen, dass es einen riesigen Sack voll Produkte gibt? Und vielleicht auch ein paar lokale? Aber wie man auch guckt, es sieht so aus als ob eine Marktübersicht für letzteres tatsächlich sehr, sehr überschaubar wäre. Also so, wie Frank Glencairn es auch gesagt hat, es sollte schon dann auch leicht installierbar sein. Nicht: installieren sie erst Jupyter Notebooks, dazu noch drei andere Python ENV Umgebungen, installieren sie GIT und melden sie sich an .... etc. Soetwas gehört nicht zwingend zu dieser Kategorie. Nicht dass es nicht machbar wäre, aber ... meistens steht das Ergebnis nicht im Verhältnis zum Aufwand. Denn so überraschend gute Ergebnisse die KIs auch schon produzieren, so oft ist doch noch Müll dabei. Sei es ein unbrauchbares Bild in einem GAN, ein völlig gelogener Text auf GPT4 oder eben ein Sprecher der eher vom Melmac stammt als das er als Ersatz für echtes sprechen taugt. Klar, wenn nach drei Tagen Prompt-Tuning dann eben doch eines dieser Aha-Effekt Dinger aus der KI kommt, dann heisst es, die kann das. Hab ich dann aber vielleicht in 2 einhalb Tagen mit nem Grafiktablett und nem alten (lokalen, gekauften, nicht gemieteten, nicht um Onlineservices beschnittenem (wie Gesichtserkennung und Kartenservice in Lightroom CS6)) Photoshop auch hinbekommen.

Um auch das noch einmal klarzustellen, ich fände das Verdrängen von Sprechern durch KIs auch doof. Ich stelle mir nur gerade vor, dass ich ein Video sowohl auf deutsch als auch auf englich bereitsstellen würde. Das wäre ein HowTo zum Umbau von Gitarrenverstärkern. Wenn ich eine englische KI Sprechervoice hätte, würde ich die nehmen um dem Zuschauer mein denglisch zu ersparen. Einen bezahlten Sprecher würde ich dafür nicht einkaufen. Ich ersetze ihn also nicht. Ich würde nur die englische Ausprache etwas "beautyfien" :-) Und selbst wenn eine gute deutsche Stimme bei wäre, würde ich den deutschen Text dann doch lieber selbst einsprechen. Weil da spricht nix gegen :-)
So. Sorry jetzt habe ich mich ausgeheult. Wollte schon immer mal nach Tips für existierende lokale KI Anwendungen fragen, hatte aber immer mein PW nicht im Kopf.
Liebe Grüße,
Frankie



ChrisS
Beiträge: 102

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von ChrisS »

Letztendlich ist es nicht aufzuhalten. Ob gut oder schlecht, für den einen oder anderen, danach fragt niemand. Siehe Studer-Revox, die Ende der 90er keine einzige Bandmaschine mehr verkauft haben und pleite gingen. Heute sind sie wieder da! Also, es hilft ja nix zu heulen - man sollte eher seine Fähigkeiten und Möglichkeiten nutzen, sich neuen Gegebenheiten anzupassen, so man diese nicht beeinflussen oder verhindern kann. Jetzt liegt es an den Sprechern, sich neu zu erfinden, anstatt den Laden zu zumachen.



blindcat
Beiträge: 34

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Was die Sprecher angeht, wäre es eine gute Idee wenn die Agenturen tätig werden und Modelle ihrer Sprecher erstellen, die schützen lassen und sie dann alternativ zur Studio-Buchung angemessen zur Verfügung stellen. Dann wäre dem Sprecher und macaw in seinem Setting geholfen. Vermutlich liegt der Knackpunkt in der Formulierung "schützen lassen".

Ansonsten na klar interssiert mich das auch sehr. Deswegen suche ich ja lokale Varianten.
@Frank: Stable Diffusion mit Automatic 1111 läuft ziemlich ... einfach. Wenn es mal um das ausprobieren geht. Und der Installer von Oobabooga (ChatGPT artige Textmodelle) läuft gerade ebenso unkompliziert durch. Beide Varianten installieren sich offenbar ohne Systemeingriff. Wenn es nicht gefällt, Ordner löschen und weg ist es.
lg
Frankie



Frank Glencairn
Beiträge: 24073

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

blindcat hat geschrieben: Di 23 Mai, 2023 17:07
@Frank: Stable Diffusion mit Automatic 1111 läuft ziemlich ... einfach. Wenn es mal um das ausprobieren geht. Und der Installer von Oobabooga (ChatGPT artige Textmodelle) läuft gerade ebenso unkompliziert durch. Beide Varianten installieren sich offenbar ohne Systemeingriff. Wenn es nicht gefällt, Ordner löschen und weg ist es.
Ich weiß, hab ich alles schon durch (und wieder gelöscht), war spannend und unterhaltsam, hab allerdings für beides (außer Spieltrieb) keine wirkliche Anwendung - was ich brauche ist TTS und Voice Cloning in Deutsch.
Sapere aude - de omnibus dubitandum



blindcat
Beiträge: 34

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Sag Bescheid wenn Dir was unterkommt ... :-)



 Aktuelle Beiträge [alle Foren]
 
» Ist shooten mit wenig Kontrast oder Sättigung eine Universal-Regel, die immer gilt?
von milesdavis - Fr 12:14
» Panasonic G9 M2 - Beste Einstellung für Lowlight
von Darth Schneider - Fr 11:33
» Filmen Firmenevent mit Livestream
von soulbrother - Fr 11:33
» Kling AI generiert 10s-Sequenzen mit gewünschter Kamerabewegung
von slashCAM - Fr 11:00
» Apple Vision Pro: Verkaufsstart (USA) ab Februar für 3.499,- Dollar + neuer Werbeclip
von NurlLeser - Fr 10:56
» komische DJI Weiterleitung
von berlin123 - Fr 10:42
» Alien: Romulus - Teaser Trailer online - produziert von Ridley Scott, gedreht auf Alexa 35
von 7River - Fr 10:36
» Videoausrüstung mit einer Alpha 7cii
von cantsin - Fr 9:12
» Blackmagic Pocket Cinema Camera 6K Pro - Erweiterte Ausstattung, Rolling Shutter und Debayering
von Mantas - Fr 8:34
» KURZFILME, STUDENTENOSCAR & CO. Über den Einstieg in die Filmbranche
von Alex - Fr 7:13
» DJI Proxies in Resolve oder BM Proxy Generator?
von Axel - Fr 4:45
» Nikon Z6 III - Sensor-Bildqualität, Rolling Shutter, Dynamik - Günstige Z8 für Filmer?
von pillepalle - Fr 1:25
» Kompakte Sony ZV-E10 II mit 10bit 4K 60p und Kinolook-Funktionen angekündigt
von Bruno Peter - Fr 0:40
» Davinci Untertitel zusammenfügen
von dienstag_01 - Fr 0:28
» Panasonic S5 - Allgemeine Fragen, Tipps und Tricks, Zeig deine Bilder/Videos usw.
von roki100 - Fr 0:12
» Eingangs und Ausgans Auflösung 4K -> FullHD
von dienstag_01 - Do 23:45
» Was schaust Du gerade?
von Saint.Manuel - Do 23:13
» Auf welcher Webseite finde ich am besten Crew Mitglieder?
von 7River - Do 20:33
» Lumix G9 M2 - Probleme mit Überhitzen
von Skeptiker - Do 20:18
» -SONY FX- Erfahrungsaustausch
von klusterdegenerierung - Do 19:55
» Beratung für Video-Einsteiger mit großer Fotografie-Erfahrung
von cantsin - Do 19:50
» AI-Diskussionsthread - Pro/Kontra?
von Skeptiker - Do 19:45
» Probleme beim Synchronisieren von Clips anhand von Audiospur
von playmen - Do 19:32
» Odyssey: Neue Video-KI speziell für Hollywood geplant
von slashCAM - Do 16:57
» Sony ZV-E10ii im Anflug
von cantsin - Do 14:14
» Nanlite FC PowerController: Stromversorgung, V-Mount-Ladegerät und Controller
von slashCAM - Do 11:30
» miniDV upscalen / Seitenverhältnis
von Jacksonjunge - Do 11:20
» miniDV zu 4K - mit Topaz Video 4 - interessantes Preset!
von Jacksonjunge - Do 11:08
» Künstliche Intelligenz erzählt Quatsch
von cantsin - Do 11:01
» Ling Long Mini-PC in einer faltbaren Mini-Tastatur – Laptop-Alternative ohne Display
von Gabriel_Natas - Do 10:48
» Überspielen von MiniDV (Panasonic NV GS280) auf PC
von Jacksonjunge - Do 10:38
» Nanlite FC-500C Full-Color LED-Spotlight für 1.099 Dollar
von slashCAM - Do 10:15
» Resolve auf Linux
von cantsin - Do 9:59
» Premiere Pro Color Grading geht nicht
von Bananemuffel - Do 9:44
» Tragischer Unfall am Set trotz Filmwaffe: Kamerafrau stirbt nach Schuß von Alec Baldwin
von Pianist - Do 9:11