Auch wenn es um die Nachvertonung von Filmen geht stehen neue Lösungen auf Basis von KI-Algorithmen in den Startlöchern. Die Anwendungsgebiete gehen dabei von glaubhaften Sprechern für Dokumentarfilme bis hin zum Dubbing, also der lippensynchronen Nachvertonung von szenischen Schauspielern. Zum “in den Munde gelegt” hatten wir auch schon über komplett alternative Ansätze berichtet.
Bislang blieb jedoch als Problem im Raum, dass man computergenerierte Stimmen meistens noch deutlich von einer “echten” menschlichen Stimme unterscheiden konnte. Betonung und die fehlende variable Geschwindigkeit sorgten bis dato immer noch für einen deutlich sterilen Subton. Doch auch dies dürfte sich in nächster Zukunft radikal ändern.
// Top-News auf einen Blick:
- Blackmagic Camera App 3.0 für Android und iOS bringt viele Neuerungen
- Blackmagic DaVinci Resolve 20.2 bringt neben Apple ProRes RAW u.a. ...
- Apple Final Cut Camera 2.0 bringt iPhone 17 Pro ProRes RAW, Genlock und Open Gate
- iPhone 17 Pro: ProRes RAW, Genlock, Apple Log 2 und Blackmagic ProDock für Filmer
- Nikon ZR in der Praxis: 6K 50p RED RAW Monster für 2.349,- Euro mit klassenbester Colorscience?
Das verlinkte Google Paper beschreibt mit Tacotron 2 ein neuronales Netzwerk, das aus reinem Text mittels Prognose eine natürliche Betonung und einen runden Wortfluss erzeugt. Hörbeispiele dazu gibt es unter diesem Link. Die spannendsten Beispiele finden sich dabei ganz unten auf der Seite: Hier muss man raten, welche Sätze von Tacotron 2 erzeugt wurden und welche von einer echten menschlichen Sprecherin stammen. Um es vorweg zu nehmen: Mit Sicherheit lässt sich hier nichts mehr sagen.