Logo Logo
/// News

Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in alle Sprachen

[15:28 Mo,26.September 2022 [e]  von ]    

OpenAI, die Entwickler unter anderem der Text-KI GPT3 und der Bildgenerierungs KI DALL-E 2 haben das Spracherkennungssystem "Whisper" vorgestellt, welches nicht nur gesprochene Worte in Text transkribieren, sondern diese auch in eine beliebige andere Sprache übersetzen kann. Erfreulicherweise hat sich OpenAI ein Vorbild an Stability.ais Vorgehen mit dessen Text-2-Image KI Stable Diffusion genommen und das zugehörige Programm samt Modell frei zugänglich und somit auch kostenlos veröffentlicht.


speech-2-text-grafik2


Der Open-Source Code von Whisper liegt in Form von fünf verschieden großen Versionen mit unterschiedlichen Genauigkeiten und Arbeitsgeschwindigkeiten auf Github vor, die alle auf mit einer Grafikkarte ausgestatteten Heim-PCs laufen. Je nach Modell sind dafür GPUs von 1 bis 10 GB VRAM erforderlich. Die ersten vier Modelle umfassen nur Englisch, nur das größte wurde mit vielen anderen Sprachen trainiert und bietet deswegen auch die Möglichkeit, gesprochene Worte aus einer Sprache in eine andere zu übersetzen und als Text auszugeben.

Whisper-Models
Whisper Modelle


Trainiert wurde der Encoder-Decoder-Transformer Whisper anhand von 680.000 Stunden Audiomaterial (samt Transkriptionen) aus dem Internet, davon waren zwei Drittel englischsprachig, der Rest in anderen Sprachen. Die Spracherkennung funktioniert dabei überraschend gut - auch bei undeutlicher Sprache oder störenden Hintergrundgeräuschen.



Erste Anwendungen und Tools nutzen Whisper


Die Bedienung erfolgt ganz simpel per Kommandozeile - aber ähnlich wie bei Stable Diffusion sorgt der offen zugängliche Quellcode auch bei Whisper dafür, daß gerade massenhaft Tools programmiert werden, die dessen Fähigkeiten für besondere Aufgaben nutzen oder auch einfach die Handhabung durch eine graphische Benutzeroberfläche (GUI) vereinfachen.

asr-summary-of-model-architecture-desktop
Whisper Architektur


Zur Nutzung von Whisper muss nicht einmal ein Programm auf dem eigenen PC installiert werden, Whisper kann auch über Webdienste genutzt werden. So gibt es auf dem KI-Community Huggingface zum Beispiel ein einfaches Tool, YouTube Whisperer, mit dessen Hilfe die gesprochenen Worte eines YouTube Videos automatisch in Text transkribiert werden können. Ein anderes, noch sehr simples Tool erlaubt es, den Live-Audioinput per Mikrofon in Text umzuwandeln. Es gibt auch ein eher spielerisches Google Colab Projekt, welches Whisper mit Stable Diffusion integriert und es so ermöglicht, automatisch Bilder aus englischsprachigen mp3-Dateien zu erzeugen.

YouTube-Whisperer
YouTube Whisperer



Die Zukunft: KI Tools für Alle - und automatische Untertitelung


Für die User ist Whisper ein weitere interessante und praktische KI-Funktion, die in Zukunft (kostenlos!) für alle möglichen Aufgaben genutzt werden kann. Audio-Transkription ist damit kein Herrschaftswissen mehr, das nur in speziellen Pay-Apps nutzbar ist (oder auf OS Ebene wie in Android oder per Siri). Wir sind gespannt auf die kommenden Programme, welche Whisper für neue interessante Funktionalitäten im Bereich Video nutzen werden, wie zum Beispiel eine automatische Indizierung Filmarchiven nach in den Clips gesprochenen Worten, welche dann per Text nach Dialogstellen durchsuchbar sind oder die automatische Erstellung von Textabschriften von Telefonanrufen oder anderen Audioaufzeichnungen. Für Filmemacher bzw. Videopodcaster besonders interessant ist natürlich auch die Möglichkeit, automatisch Untertitel in mehreren Sprachen zu erstellen und diese je nach Herkunft des Zielpublikums anzubieten.

asr-summary-of-model-architecture-desktop
Whisper Architektur



Das Ende von Audio-Transkriptionsdiensten?


Für Anbieter von speziellen bezahlten KI-Transkriptionsdiensten wie etwa Simon Says für Videos ist Whisper eine schlechte Nachricht, wird doch deren Geschäftsmodell dadurch nahezu hinfällig - ihnen bleibt nur noch das Anbieten eines besonderen Interfaces und von nützlichen Zusatzfunktionen. Adobe hatte ja bereits das Ende solcher externen Pay-Services für Videos eingeläutet, indem es eine Audio-Transkription in Adobe Premiere Pro per
Adobe Sensei integrierte.


Bild zur Newsmeldung:
Simon-Says1

Link mehr Informationen bei openai.com

  
[7 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
R S K    12:36 am 30.9.2022
Und wenn man null Interesse an nur halbwegs korrekter Transkription, nicht ein einziges Satzzeichen und das ignorieren sämtlicher Pausen u.v.m. hat—was man dann stundenlang...weiterlesen
Frank Glencairn    12:07 am 30.9.2022
Wenn's nicht eilt, kann man ein Video auch einfach auf YT hochladen, und dann das fertige Transcript wieder runter landen.
R S K    11:45 am 30.9.2022
Abgesehen von dem sehr fragwürdigen Deutsch (und das von einem nicht native) ist die Aussage bzgl. Descript „Sie erhalten Ihre Aufgabe(?) innerhalb von nur 24 Stunden”...weiterlesen
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildLaowa 58mm f/2.8 2X Ultra-Macro APO Objektiv vorgestellt bildDJI stellt morgen zwei neue professionelle Mavic Enterprise Modelle vor


verwandte Newsmeldungen:
Machine Learning:

Heavy Metal meets Midjourney: Musikvideo aus 10.000 KI-generierten Bildern 4.Dezember 2022
Meta Encodec komprimiert mit KI Audio-Dateien deutlich stärker als MP3 21.November 2022
KI kopiert Filmstil von "Into the Spider-Verse"in Rekordzeit 14.November 2022
MAXIM - KI-Tool vereint diverse Bildverbesserungen in einem Modell 13.November 2022
Blackmagic Resolve 18.1 Update u.a. mit KI-Sprach-Isolation und Vektor-Keyframes 11.November 2022
Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die Gretchenfrage 5.November 2022
AvatarCLIP: Neue KI generiert und animiert 3D-Avatare per Textbeschreibung 28.Oktober 2022
alle Newsmeldungen zum Thema Machine Learning


[nach oben]

















passende Forenbeiträge zur News:

Archive

2022

Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 5.Dezember 2022 - 15:02
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*