WhisperX: Kostenlose lautgenaue Audiotranskription mit Sprechererkennung

// 11:28 Mi, 1. Feb 2023von Thomas Richter

Im September hatte OpenAI, die Entwickler unter anderem der Text-KI ChatGPT und der Bildgenerierungs-KI DALL-E 2, das Spracherkennungssystem Whisper vorgestellt, welches gesprochene Worte in Text transkribieren kann. Da OpenAI erfreulicherweise das zugehörige Programm samt Modell frei veröffentlicht hatte, entwickelte sich bald eine Vielzahl darauf basierender Open Source Projekte. Eines davon ist WhisperX, das von dem Computerwissenschaftler Max Bain gestartet und gerade veröffentlicht wurde. Es ist für Filmer besonders interessant, da es einige spezifische Schwächen von Whisper behebt, die dessen Nutzung als automatischer Untertitelgenerator bisher verhinderten.

So erkennt WhisperX in der Version 2.0 (anders als das Original-Whisper) unterschiedliche Sprecher und macht diese im transkribierten Sprechertext kenntlich. In Whisper können ferner die Timestamps um mehrere Sekunden falsch liegen - um dies zu verhindern, wird der Audio-Input unter anderem vorgefiltert um zu erkennen, wann überhaupt gesprochen wird, was die Qualität erheblich verbessern soll (allerdings auch mehr Grafikkartenspeicher benötigt). In WhisperX sollen die Timestamps, welche in der Transkription anzeigen, wann ein Sprecher zu reden anfängt und aufhört, jetzt bis auf die Lautebene genau sein.

// Top-News auf einen Blick:

Diese Verbesserungen vereinfachen den Einsatz von Whisper zum Beispiel für die Erstellung von Untertiteln beträchtlich, da nun Dank WhispherX viel weniger manuell nachgebessert werden muss. So stimmt nicht nur das Timing jetzt genau, d.h. wenn ein Schauspieler zu sprechen anfängt, erscheint auch synchron der jeweilige Untertitel, sondern die Kennzeichnung, wer etwas sagt (wichtig zum Beispiel für die Hörgeschädigten-Fassung), erfolgt automatisch.

Derzeit werden Standardmodelle unter anderem für Englisch, Französisch, Deutsch, Spanisch, Italienisch, Japanisch, Niederländisch und Polnisch bereitgestellt. WhisperX nutzt mehrere freie Tools unabhängig, um eine robuste Segmentierung auf Wortebene mit Sprecherbeschriftungen zu erzeugen und zwar neben OpenAIs Whisper noch MetaAIs wav2vec2.0 (zuständig für die Lauterkennung auf Phonemebene) sowie pyannote.audio (für die Voice Activity Detection).

WhisperX ist wie Whisper selbst kostenlos und auf Github samt Quellcode frei verfügbar. WhisperX ist in Python geschrieben und kann - das entsprechende Wissen vorausgesetzt - per Commandline angesprochen werden. Wir gehen allerdings davon aus, daß WhisperX bald auch anwenderfreundlicher in ersten (Online) Untertitel-Tools oder -Plugins integriert werden wird.

mehr Infos bei
github.com

Auf Socials teilen:

WhisperX: Kostenlose lautgenaue Audiotranskription mit Sprechererkennung

// Top-News auf einen Blick:

Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in ...

DALL-E 3 ist da und generiert exaktere KI-Bilder inkl. Text dank ChatGPT-Integration

Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die ...

Video-KI jetzt zugänglich OpenAI gibt Sora frei - Preis: 20 oder 200 Dollar pro Monat

Stimme geklaut? Scarlett Johansson kritisiert OpenAI: ChatGPT spricht wie ich

Viele Verbesserungen Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes

E-Mount Zoom Sony stellt FE 50-150mm F2 GM Zoom für Pros vor: Lichtstark, leicht und hochpreisig

Universeller Speicher Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Teurer, doch voller Chancen Zukunft AI-Video - Wohin generative KI die Medienbranche führen wird

Licht, Spiegel, Roboter OK Go "Love" BTS - wildes 1-Take-Musikvideo

Für Smartphones und Kameras Wird Sony bald seine Sensor Sparte ausgliedern?

ARTIKEL

THEMEN