Auch wenn es um die Nachvertonung von Filmen geht stehen neue Lösungen auf Basis von KI-Algorithmen in den Startlöchern. Die Anwendungsgebiete gehen dabei von glaubhaften Sprechern für Dokumentarfilme bis hin zum Dubbing, also der lippensynchronen Nachvertonung von szenischen Schauspielern. Zum “in den Munde gelegt” hatten wir auch schon über komplett alternative Ansätze berichtet.
Bislang blieb jedoch als Problem im Raum, dass man computergenerierte Stimmen meistens noch deutlich von einer “echten” menschlichen Stimme unterscheiden konnte. Betonung und die fehlende variable Geschwindigkeit sorgten bis dato immer noch für einen deutlich sterilen Subton. Doch auch dies dürfte sich in nächster Zukunft radikal ändern.
// Top-News auf einen Blick:
- Erste Black Friday Angebote von Atomos, Nanlite, DZOFILM und mehr
- SanDisk stellt Extreme Fit vor: Aktuell kleinster 1TB USB-C-Speicherstick
- Apple plant OLED-MacBook Pro, Mac Studio M6 Ultra und Mini-LED Studio Display
- DJI Avata 360 - Leaks zeigen DJIs neue 360°-Drohne
- ARRIs Color KnowHow könnte Millionen Wert sein - als Workflow Lizenz für Dritte
- Canon EOS C50 im Praxistest: Kompaktes Arbeitstier mit 7K 50p Raw - die neue FX3 Konkurrenz
Das verlinkte Google Paper beschreibt mit Tacotron 2 ein neuronales Netzwerk, das aus reinem Text mittels Prognose eine natürliche Betonung und einen runden Wortfluss erzeugt. Hörbeispiele dazu gibt es unter diesem Link. Die spannendsten Beispiele finden sich dabei ganz unten auf der Seite: Hier muss man raten, welche Sätze von Tacotron 2 erzeugt wurden und welche von einer echten menschlichen Sprecherin stammen. Um es vorweg zu nehmen: Mit Sicherheit lässt sich hier nichts mehr sagen.


















