Wir hatten ja vor kurzem über OpenAIs offenes KI Transkriptions- und Übersetzungsprogramm Whisper berichtet - jetzt hat der deutsche Filmemacher Octavian Mot ein kostenloses Plugin namens StoryToolkitAI (macOS/Windows) für Blackmagics Grading-, Schnitt-, Compositing- und Audio-Mastering-Programm DaVinci Resolve (Studio) 18 entwickelt, welches diese Fähigkeiten nutzt. StoryToolkitAI rendert direkt aus der Timeline von Resolve ein reines Audio-File und schickt dieses an eine lokal installierte Version von OpenAI Whisper, welche dieses dann in Text transkribiert. Das hat u.a. den Vorteil, daß im Gegensatz zu anderen Transkriptionslösungen, welche Online-Dienste nutzen, das Audio nie den eigenen PC verlässt.

Das Tool kann dank Whisper nicht nur Sprachaufzeichnungen aus verschiedenen Sprachen in Text (kostenlos!) transkribieren, sondern diesen Text auch ins Englische übersetzen. Implementiert wurden zudem noch praktische Zusatzfunktionen, wie etwa eine Suche oder eine Navigation in der Timeline mittels Textstellen der Transkription. In Arbeit sind weitere Funktionen wie etwa eine Teiltranskription mittels Markern, mehr Einstellungsmöglichkeiten oder eine automatische Erkennung von Sprechern (wichtig bei der Transkription von Dialogen).
Die Qualität der Ergebnisse von Whisper sind sehr hoch - die Transkription klappt auch bei schlechter Audioqualität (z.B. aufgrund einer niedrigen Bitrate). Laut OpenAI wurden die Whisper-Modelle mittels Daten von 98 verschiedenen Sprachen trainiert (ca. 65% der Daten auf Englisch) und zeigen gute Ergebnisse bei der automatischen Spracherkennung in ~10 Sprachen. Für Filmemacher bzw. Videopodcaster besonders interessant ist unter anderem die Möglichkeit, dank Transkription und Übersetzung Untertitel in mehreren Sprachen zu erstellen und diese je nach Herkunft des Zielpublikums anzubieten.
StoryToolkitAI befindet sich noch in einem frühen Entwicklungsstadium (die GUI ist noch sehr simpel), ist aber schon voll funktionsfähig. Voraussetzung ist allerdings eine Installation mehrerer Komponenten per Commandline ( hier die Anleitung).

Geschwindigkeit der Transkription
Voraussetzung für eine flotte Transkription ist ein einigermaßen aktueller Computer - idealerweise mit einer leistungsstarken GPU. Groben Tests zufolge transkribiert ein Apple M1 Macbook Pro mit 16GB RAM eine 30 sekündige Timeline in ca. 45 Sekunden (1.5x) und eine Windows Workstation mit einer Nvidia GTX 1070 eine 60 sekündige Zeitleiste in ca. 20 Sekunden (0,25-fache Zeitlänge des Audios) - neuere RTX-GPUs sind aber nochmals deutlich schneller (0,05-0,10-fache der Audiodauer).(Danke an Constantin für die Meldung!)
Hauptfunktionen von StoryToolkitAI
- Kostenlose automatische Transkription in vielen Sprachen auf einem lokalen Rechner direkt aus Resolve
- Kostenlose automatische Übersetzung aus vielen Sprachen ins Englische auf einem lokalen Rechner direkt aus Resolve heraus
- Export von Transkripten in mehrere Formate, einschließlich SRT
- Importieren einer SRT-Transkriptionsdatei direkt in Resolve
// Top-News auf einen Blick:
- Navigation in der Transkriptionszeitachse - durch Klicken auf eine Phrase wird der Resolve-Abspielkopf an die entsprechende Stelle in der Timeline gesetzt
- Transkript-Wortsuche: ermöglicht es, bestimmte Wörter oder Phrasen in einem Transkript zu finden
- Kopieren von Markierungen zwischen Resolve-Timelines und Timeline-Quellclip
- Rendern von Resolve-Markern in Standbilder oder Clips
- Transkription von Audiodateien, auch wenn Resolve nicht auf dem Rechner installiert ist
Funktionen in Entwicklung
- Mark In / Mark Out direkt aus dem Tool in Resolve
- Erweiterte Transkriptionen mit mehr Benutzereingaben, wie Quellensprache und Auswahl
- Globale Suche, um Wörter oder Phrasen in Projekttranskripten zu finden
- Transkriptbearbeitung vom Tool aus
- Geschnittene Transkriptionen basierend auf Resolve-Dauer-Markierungen, um nur Teile der Zeitachse zu transkribieren
- Erkennung von Sprechern
- Integration mit anderen AI/ML-Tools