Transkription per KI FFmpeg 8.0 bringt automatische Untertitel per Whisper-KI

// 17:58 Mo, 18. Aug 2025von

Die demnächst erscheinende Version von FFmpeg 8.0 wird unter anderem auch die Transkription mittels Whisper unterstützen. Dank Whisper können per KI automatisch Untertitel zu Videos in über 90 Sprachen erzeugt werden - lokal auf dem Computer, ohne Daten in die Cloud zu irgendwelchen Anbietern schicken zu müssen. Das ist erstens billig und zweitens datenschutztechnisch sicher, weil keine eventuell sensiblen Inhalte den eigenen Rechner verlassen und man so die volle Kontrolle über die Daten behält. Zudem ist die Transkription von Whisper sehr gut - in einem Vergleich mit Google Speech-to-Text und Amazon Transcribe erzielt Whisper deutlich bessere Ergebnisse als diese.


FFmpeg
FFmpeg



Was kann Whisper?

Whisper kann dazu genutzt werden, um aus allen möglichen Arten von Audio- und Videoaufnahmen gesprochene Worte zu verschriftlichen. So können zum Beispiel Untertitel für fremdsprachige Filme in Form von .SRT-Dateien generiert werden oder Vorträge und Podcasts als Text ausgegeben werden - auch live. Die Transkription erfolgt auch beschleunigt per GPU, falls eine passende Grafikkarte vorhanden ist.



Um Whisper in FFmpeg fest zu integrieren, muss whisper.cpp bereits auf dem PC vorhanden sein, um dann in FFmpeg mittels eines Flags ("--enable-whisper") einkompiliert zu werden. Normale User werden aber sehr wahrscheinlich - wie bisher schon - FFmpeg als vorkompilierte binäre Version (https://www.ffmpeg.org/download.html) für Windows, Linux oder MacOS herunterladen können - dann auch als spezielle Version inklusive Whisper.







FFmpeg ist überall - unter der Haube

Die meisten User werden allerdings vermutlich nicht direkt mit FFmpeg in Kontakt kommen, sondern indirekt über eines der zahlreichen Multimedia-Programme, die unter der Haube auf die Funktionen von FFmpeg zurückgreifen, um Audio- und Videodateien in zahlreichen Formaten wie etwa H.265, H.264, AV1, Apple ProRes und Avid DNxHR zu encodieren, streamen, dekodieren, wiederzugeben oder zu konvertieren. So nutzen zum Beispiel der populäre VLC- sowie der MPlayer, die Videoschnittprogramme Blackmagic DaVinci Resolve und Adobe Premiere, das freie Mediacenter Kodi oder das freie Audiobearbeitungsprogramm Audacity, Googles Chrome Browser, Firefox, die Streaming-App OBS Studio, der 3D-Modeller Blender oder das Encoding-Tool Handbrake sowie viele weitere Tools die FFmpeg-Bibliothek für verschiedene Aufgaben.



Verbesserungen und Neuerungen von FFmpeg kommen also indirekt auch einer Vielzahl von populären Programmen zugute - besonders im Bereich Videobearbeitung. Es dürfte also nicht lange dauern, bis viele dieser Tools auch die Transkriptionsfähigkeiten von Whisper via FFmpeg nutzen werden und so noch mehr Funktionen anbieten können. Das Team des VLC-Players hatte schon zur NAB 2025 im Januar eine eigene Integration von Whisper (https://www.slashcam.de/news/single/Kostenloser-VLC-Player-erzeugt-automatisch-Unterti-19039.html) demonstriert, um nicht nur automatisch Untertitel von Filmen zu erzeugen, sondern diese auch noch zu übersetzen - beides in Echtzeit und lokal.




Whisper in VLC-Player
Whisper im VLC-Player


OpenAI hatte Whisper schon 2022 entwickelt und unter der freien MIT-Lizenz samt Quellcode veröffentlicht - seitdem gibt es zahlreiche Projekte, die Whisper nutzen und auch weiterentwickelt haben, wie zum Beispiel WhisperX, das speziell für die Untertitelung von Filmen gemacht wurde und sowohl mehrere Sprecher erkennt, als auch die jeweiligen Timestamps exakt setzt. Dank der quelloffenen Natur von FFmpeg und WhisperX wird auch diese verbesserte Version bald per FFmpeg zu nutzen sein.




Wann erscheint FFmpeg 8.0?

FFmpeg 8.0 soll in den nächsten Tagen erscheinen und enthält abgesehen von der Whisper-Unterstützung eine Reihe weiterer Neuerungen wie etwa Hardwarebeschleunigung mittels der plattformübergreifenden GPU-API Vulkan Video für das Encoding von AV1 und Dekodierung von ProRes RAW und VP9, neue Optimierungen der CPU-Leistung per AVX-512 sowie eine Vielzahl weiterer Verbesserungen.





Lokale Audio Transkription schon jetzt

Wer schon jetzt auf dem eigenen PC Audioaufnahmen transkribieren will, kann das zum Beispiel mit dem Open Source Tool noscribe machen, das von Kai Dröge, einem Soziologe an der Universität Luzern zusammen mit einer kleinen ehrenamtlichen Community entwickelt wurde und ebenfalls auf Whisper aufsetzt. Es bietet eine eigene Oberfläche und läuft auch auf PCs ohne moderne Grafikkarte.




Ähnliche News //
Umfrage
    Generative Video-KI: Hast du ein Abo?







    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash