Logo Logo
/// News

WhisperX: Kostenlose lautgenaue Audiotranskription mit Sprechererkennung

[11:28 Mi,1.Februar 2023 [e]  von ]    

Im September hatte OpenAI, die Entwickler unter anderem der Text-KI ChatGPT und der Bildgenerierungs-KI DALL-E 2, das Spracherkennungssystem Whisper vorgestellt, welches gesprochene Worte in Text transkribieren kann. Da OpenAI erfreulicherweise das zugehörige Programm samt Modell frei veröffentlicht hatte, entwickelte sich bald eine Vielzahl darauf basierender Open Source Projekte. Eines davon ist WhisperX, das von dem Computerwissenschaftler Max Bain gestartet und gerade veröffentlicht wurde. Es ist für Filmer besonders interessant, da es einige spezifische Schwächen von Whisper behebt, die dessen Nutzung als automatischer Untertitelgenerator bisher verhinderten.



WhisperX-Model
WhisperX Modell



So erkennt WhisperX in der Version 2.0 (anders als das Original-Whisper) unterschiedliche Sprecher und macht diese im transkribierten Sprechertext kenntlich. In Whisper können ferner die Timestamps um mehrere Sekunden falsch liegen - um dies zu verhindern, wird der Audio-Input unter anderem vorgefiltert um zu erkennen, wann überhaupt gesprochen wird, was die Qualität erheblich verbessern soll (allerdings auch mehr Grafikkartenspeicher benötigt). In WhisperX sollen die Timestamps, welche in der Transkription anzeigen, wann ein Sprecher zu reden anfängt und aufhört, jetzt bis auf die Lautebene genau sein.



Diese Verbesserungen vereinfachen den Einsatz von Whisper zum Beispiel für die Erstellung von Untertiteln beträchtlich, da nun Dank WhispherX viel weniger manuell nachgebessert werden muss. So stimmt nicht nur das Timing jetzt genau, d.h. wenn ein Schauspieler zu sprechen anfängt, erscheint auch synchron der jeweilige Untertitel, sondern die Kennzeichnung, wer etwas sagt (wichtig zum Beispiel für die Hörgeschädigten-Fassung), erfolgt automatisch.

Derzeit werden Standardmodelle unter anderem für Englisch, Französisch, Deutsch, Spanisch, Italienisch, Japanisch, Niederländisch und Polnisch bereitgestellt. WhisperX nutzt mehrere freie Tools unabhängig, um eine robuste Segmentierung auf Wortebene mit Sprecherbeschriftungen zu erzeugen und zwar neben OpenAIs Whisper noch MetaAIs wav2vec2.0 (zuständig für die Lauterkennung auf Phonemebene) sowie für die Voice Activity Detection.

WhisperX ist wie Whisper selbst kostenlos und auf Github samt Quellcode frei verfügbar. WhisperX ist in Python geschrieben und kann - das entsprechende Wissen vorausgesetzt - per Commandline angesprochen werden. Wir gehen allerdings davon aus, daß WhisperX bald auch anwenderfreundlicher in ersten (Online) Untertitel-Tools oder -Plugins integriert werden wird.

Link mehr Informationen bei github.com

  
[7 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
hexeric    22:18 am 3.2.2023
für WHISPER hat jemand eine feine MAC APP programmiert, die es speziell in der pro version um einmalig 12€ in sich hat: https://goodsnooze.gumroad.com/l/macwhisper eigentlich...weiterlesen
berlin123    12:50 am 3.2.2023
Fand das Feature in Premiere auch richtig gut. Die Texterkennung war erstaunlicherweise besser, als das was Google im Vergleich produzierte. Aber die Entwicklung in dem Bereich...weiterlesen
freezer    07:47 am 2.2.2023
Frank, ich hab hier eine Anleitung der Schritte geschrieben, die bei mir funktioniert haben: https://forum.blackmagicdesign.com/view ... 09#p906109
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildDoP Caroline Champetier (ua. Holy Motors) bekommt die Berlinale Kamera 2023 bildSamsung Odyssey Neo G70C: 43" Mini-LED Monitor mit SmartTV-Funktionen


verwandte Newsmeldungen:


[nach oben]

















passende Forenbeiträge zur News:

Archive

2023

März - Februar - Januar

2022
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 25.März 2023 - 15:02
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*