News-Kommentare Forum

Beitrag von **slashCAM** » So 21 Mai, 2023 13:27

Generative KIs können mittlerweile Texte erstellen, die wie aus Menschenhand klingen, fotorealistische Bilder aus dem Nichts zaubern und nichtzuletzt - wie schon öfters a...
Bild

Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

ChrisS · Beitrag von **ChrisS** » So 21 Mai, 2023 16:53

Das ist sicherlich ein Thema, keine Frage. Nur hat die Sprache "Deutsch" noch eine Galgenfrist. Es gibt nichts, das in deutsch wirklich gut klingt. Geschweige denn mit Emotionen. Von daher haben die deutschsprachigen Sprecher noch die Möglichkeit, die Rahmenbedingungen mitzugestalten. Abgesehen davon hat die deutsche Sprecherbranche schon immer nur ein einziges Thema gehabt: "Geld". Angefangen mit "Du bist ja kein professioneller Sprecher" und jetzt "KI". YT hat gezeigt, dass "authentisch" auch mit anderen Mitteln geht. Professionelle Sprecher werden immer einen Platz haben, davon bin ich überzeugt. Aber die Brot und Butter Jobs, werden weniger. Und wenn wir mal in der Geschichte zurück gehen: bei Derrick habe ich schon immer gewusst, das muss doch eine Computerstimme sein! :-)

Viteq · Beitrag von **Viteq** » So 21 Mai, 2023 18:39

Letztes Jahr hatte ich in einem Projekt ein AI-Voiceover Tool gesucht, das auch das Sprechervideos generieren kann.
Hatte mich für Synthesia entschieden und es nicht bereut: https://www.synthesia.io/
Für 30 US Dollar gab es 10 Minuten Audio/Video. Es ist eine so unglaubliche Zeit/Geldersparnis und die Qualität ist schon sehr gut.
Manchmal gibt es allerdings Wörter, die die Software nicht richtig aussprechen kann. Bei deutscher Sprache öfters als in Englisch.

CineMika · Beitrag von **CineMika** » So 21 Mai, 2023 21:06

Vorausgesetzt die Qualität stimmt, gäbe es durchaus ein sinnvolles Szenario

Im Falle eines verstorbenen bekannten Synchronsprechers, könnten die zugehörigen Original Schauspieler noch in gewohnter Manier synchronisiert werden, vorausgesetzt die Erben sind damit einverstanden.
Es ist immer sehr befremdlich und kontraproduktiv, wenn eine sehr bekannte Figur auf einmal eine andere Stimme hat

Frank Glencairn · Beitrag von **Frank Glencairn** » Mo 22 Mai, 2023 06:41

Skeptiker · Beitrag von **Skeptiker** » Mo 22 Mai, 2023 08:44

Frank Glencairn hat geschrieben: ↑Mo 22 Mai, 2023 06:41 -> freie Thorsten-Stimme

Als Sprecher-Stimme wäre das nicht meine erste Wahl. Aber dann denkt man sich "Kost' ja nichts - warum eigentlich nicht!".
KI als Methode, sich stimmlich zu vervielfachen und als "Mem" (ist 'Muster' der richtige Ausdruck?) über die Welt zu verstreuen (Thorsten überall). Willkommener Selbst-Multiplier für Narzissten und Egozentriker?

macaw · Beitrag von **macaw** » Mo 22 Mai, 2023 10:42

blindcat · Beitrag von **blindcat** » Di 23 Mai, 2023 07:06

Wegen des KI Beitrags zur NAB hatte ich gerade mal so rumgeschaut. Über Thorsten stolpert man dabei unbedingt. Ich glaub allerding eher weniger dass er sich damit in den Vordergrund spielen will. Ich glaube eher, dass der das Thema geil findet und es pushen will.
Denn ... es fällt mir schwer eine Sprach KI zu finden, die lokal funktioniert. Es nützt leider nichts wenn die ganze Welt auf einer Ki Welle schwimmt nur um betriebswirtschaftlich organisierten Unternehmen noch mehr Daten in den Rachen zu schmeissen. Bei der Suche ist es echt eng geworden. Ich hätte auch in ein kommerzeilles Produkt investiert, wenn es denn lokal installierbar gewesen wäre. Aber fast nix, nada. Und dann bleibt doch wieder fast nur OpenSource, und wenn es dann deutsch werden soll, ist Thorsten eben eine der wenigen Optionen. Aber selbst mit Open Source ist das Installieren einer Sprach KI kein NoBrainer wie bei Automatic1111/StableDiffusion oder Oobabooga/llama und Co.
Oobabooga installiert unter Umständen ein text to speech system mit. Klang aber nicht. Also das, was hier gerne in den News als geile Sprach Ki angefeuert wird, hab ich qualitativ eher selten gefunden. Bei einigen Cloud basierten Diensten muss ich sagen, kam bei den Anjuck-Demos im Web tatsächlich etwas raus was ... cool klang. Aber was viele da nun bei Youtube unter ihre Videos zimmern klingt doch noch eher nach Maschinengewehr.

Hat irgendjemand einen guten Tip für eine lokale Sprach-KI die so nach 2023 klingt? Entweder kommerziell (unter 500 Eu wäre schon angemessen) oder besser OpenSource?
Grüße,
Frankie

Frank Glencairn · Beitrag von **Frank Glencairn** » Di 23 Mai, 2023 07:15

Ich hab auch noch nix für Deutsch gefunden, daß nicht entweder, ziemlich kompliziert (für Nichtprogrammierer) zu installieren und bedienen ist, oder halt Online mit eher unbefriedigten Ergebnissen.

Aktuell halte ich ich mit Google TTS über Wasser, ist IMHO aktuell das beste für Deutsch - ist aber noch nicht ready for prime time.

macaw · Beitrag von **macaw** » Di 23 Mai, 2023 07:52

blindcat hat geschrieben: ↑Di 23 Mai, 2023 07:06 Es nützt leider nichts wenn die ganze Welt auf einer Ki Welle schwimmt nur um betriebswirtschaftlich organisierten Unternehmen noch mehr Daten in den Rachen zu schmeissen.

Eine Firma, die nicht betriebswirtschaftlich organisiert ist, ist entweder bald Pleite und/oder hat sehr bald große Probleme mit dem Finanzamt, weil es sich dann um "liebhaberei" handelt (ist tatsächlich so definiert, wenn keine Gewinnerzielungsabsichten vorliegen) - spaß beiseite, ich verstehe vollkommen, was Du meinst, ich denke bei solchen Firmen primär an Gewinnmaximierung und ich erkenne, welche potentiell existenzbedrohende Situation sich Firmen da schaffen, wenn sie einen zunehmend wachsenden Anteil ihrer Produktionsprozesse irgendwelchen Unternehmen am anderen Ende der Welt anvertrauen. Je nach Komplexität dürfte es da nicht wenige Fälle geben, wo der Ausfall oder Angriff der Dienste die sofortige Pleite bedeuten könnte, bspw. wenn man sich in der Endfertigung befindet und auf einmal absolut notwendige Änderungen des Sprechertextes gebraucht werden bzw., wenn das soweit ist, k.i. generierte Bilder, Videos, Musik etc. Ich stecke in diesem Moment z.B. in der Endfertigung eines sehr umfangreichen Projekts für eine gewisse deutsche Airline, wo morgen ein Event in Frankfurt stattfindet wo es gespielt werden muss, es wird noch immer an letzten Schnittänderungen, Motion Design, Sounddesign, Online und Grading gearbeitet...

blindcat · Beitrag von **blindcat** » Di 23 Mai, 2023 13:12

Ja,
nicht überbewerten den Satz :-)

Grundsätzlich habe ich nichts dagegen, dass Firmen Geld verdienen. Ich würde mich ja auch freuen, wenn es einen guten Tipp für eine Kaufsoftware in dem Bereich geben würde.
Grundsätzlich bin ich aber kein Freund davon, dass die Menschen sich das "kostenlose" Internet durch ihre Datenspenden kaufen, oder sogar trotz Datenspende noch monatliche Gebühren zahlen. Also bei allen möglichen Services seit annodazumal. Punkt.
Bei den KIs sehe ich natürlich das Kernproblem. Trainingsdatensätze. Und wenn es quasi fertig ist, noch mehr Datensätze zum Verfeinern. Das Online Services da das Instrument schlechthin sind, liegt irgendwie auf der Hand. Habe ich eine lokale Installation könnte maximal (wenn den Unterbau und Model dafür ausgelegt sind) ein lokales Training oder (Weiter)-Learning stattfinden. Das ist weder effizient noch hat eben der Hersteller etwas davon.
Wie dem auch sei. Ich würde es gerne lokal haben. Eine Online Demo ist mir beim rumsuchen untergekommen (hab mir natürlich nicht gemerkt welche). Die war wirklich ... gut. Ich glaube es war ein englisches Modell und es sprach wirklich natürlich. Manchmal ist irgendwie nicht klar ob da alte TTS Engines verwendet werden oder wirklich KI/AI basierte zum Einsatz kommen. Also bei dem Grad von Natürlichkeit möchte ich mir jedenfalls ein gutes KI Modell vorstellen. Leider war eben auch das ein Online Service bei dem man einen Zugangsvertrag abschließen soll. Schade.

@rob: Ihr habt ja seit einiger Zeit eine sehr intensive Berichterstattung von der KI Front. Ich finde auch Forschung und Paper spannend, aber bei dem ganzen Hype müsste man doch annehmen, dass es einen riesigen Sack voll Produkte gibt? Und vielleicht auch ein paar lokale? Aber wie man auch guckt, es sieht so aus als ob eine Marktübersicht für letzteres tatsächlich sehr, sehr überschaubar wäre. Also so, wie Frank Glencairn es auch gesagt hat, es sollte schon dann auch leicht installierbar sein. Nicht: installieren sie erst Jupyter Notebooks, dazu noch drei andere Python ENV Umgebungen, installieren sie GIT und melden sie sich an .... etc. Soetwas gehört nicht zwingend zu dieser Kategorie. Nicht dass es nicht machbar wäre, aber ... meistens steht das Ergebnis nicht im Verhältnis zum Aufwand. Denn so überraschend gute Ergebnisse die KIs auch schon produzieren, so oft ist doch noch Müll dabei. Sei es ein unbrauchbares Bild in einem GAN, ein völlig gelogener Text auf GPT4 oder eben ein Sprecher der eher vom Melmac stammt als das er als Ersatz für echtes sprechen taugt. Klar, wenn nach drei Tagen Prompt-Tuning dann eben doch eines dieser Aha-Effekt Dinger aus der KI kommt, dann heisst es, die kann das. Hab ich dann aber vielleicht in 2 einhalb Tagen mit nem Grafiktablett und nem alten (lokalen, gekauften, nicht gemieteten, nicht um Onlineservices beschnittenem (wie Gesichtserkennung und Kartenservice in Lightroom CS6)) Photoshop auch hinbekommen.

Um auch das noch einmal klarzustellen, ich fände das Verdrängen von Sprechern durch KIs auch doof. Ich stelle mir nur gerade vor, dass ich ein Video sowohl auf deutsch als auch auf englich bereitsstellen würde. Das wäre ein HowTo zum Umbau von Gitarrenverstärkern. Wenn ich eine englische KI Sprechervoice hätte, würde ich die nehmen um dem Zuschauer mein denglisch zu ersparen. Einen bezahlten Sprecher würde ich dafür nicht einkaufen. Ich ersetze ihn also nicht. Ich würde nur die englische Ausprache etwas "beautyfien" :-) Und selbst wenn eine gute deutsche Stimme bei wäre, würde ich den deutschen Text dann doch lieber selbst einsprechen. Weil da spricht nix gegen :-)
So. Sorry jetzt habe ich mich ausgeheult. Wollte schon immer mal nach Tips für existierende lokale KI Anwendungen fragen, hatte aber immer mein PW nicht im Kopf.
Liebe Grüße,
Frankie

ChrisS · Beitrag von **ChrisS** » Di 23 Mai, 2023 14:26

Letztendlich ist es nicht aufzuhalten. Ob gut oder schlecht, für den einen oder anderen, danach fragt niemand. Siehe Studer-Revox, die Ende der 90er keine einzige Bandmaschine mehr verkauft haben und pleite gingen. Heute sind sie wieder da! Also, es hilft ja nix zu heulen - man sollte eher seine Fähigkeiten und Möglichkeiten nutzen, sich neuen Gegebenheiten anzupassen, so man diese nicht beeinflussen oder verhindern kann. Jetzt liegt es an den Sprechern, sich neu zu erfinden, anstatt den Laden zu zumachen.

blindcat · Beitrag von **blindcat** » Di 23 Mai, 2023 17:07

Was die Sprecher angeht, wäre es eine gute Idee wenn die Agenturen tätig werden und Modelle ihrer Sprecher erstellen, die schützen lassen und sie dann alternativ zur Studio-Buchung angemessen zur Verfügung stellen. Dann wäre dem Sprecher und macaw in seinem Setting geholfen. Vermutlich liegt der Knackpunkt in der Formulierung "schützen lassen".

Ansonsten na klar interssiert mich das auch sehr. Deswegen suche ich ja lokale Varianten.
@Frank: Stable Diffusion mit Automatic 1111 läuft ziemlich ... einfach. Wenn es mal um das ausprobieren geht. Und der Installer von Oobabooga (ChatGPT artige Textmodelle) läuft gerade ebenso unkompliziert durch. Beide Varianten installieren sich offenbar ohne Systemeingriff. Wenn es nicht gefällt, Ordner löschen und weg ist es.
lg
Frankie

Frank Glencairn · Beitrag von **Frank Glencairn** » Di 23 Mai, 2023 17:55

blindcat hat geschrieben: ↑Di 23 Mai, 2023 17:07
@Frank: Stable Diffusion mit Automatic 1111 läuft ziemlich ... einfach. Wenn es mal um das ausprobieren geht. Und der Installer von Oobabooga (ChatGPT artige Textmodelle) läuft gerade ebenso unkompliziert durch. Beide Varianten installieren sich offenbar ohne Systemeingriff. Wenn es nicht gefällt, Ordner löschen und weg ist es.

Ich weiß, hab ich alles schon durch (und wieder gelöscht), war spannend und unterhaltsam, hab allerdings für beides (außer Spieltrieb) keine wirkliche Anwendung - was ich brauche ist TTS und Voice Cloning in Deutsch.

blindcat · Beitrag von **blindcat** » Di 23 Mai, 2023 18:13

Sag Bescheid wenn Dir was unterkommt ... :-)

News-Kommentare Forum

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz