Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in alle Sprachen

// 15:28 Mo, 26. Sep 2022von Thomas Richter

OpenAI, die Entwickler unter anderem der Text-KI GPT3 und der Bildgenerierungs KI DALL-E 2 haben das Spracherkennungssystem "Whisper" vorgestellt, welches nicht nur gesprochene Worte in Text transkribieren, sondern diese auch in eine beliebige andere Sprache übersetzen kann. Erfreulicherweise hat sich OpenAI ein Vorbild an Stability.ais Vorgehen mit dessen Text-2-Image KI Stable Diffusion genommen und das zugehörige Programm samt Modell frei zugänglich und somit auch kostenlos veröffentlicht.

Der Open-Source Code von Whisper liegt in Form von fünf verschieden großen Versionen mit unterschiedlichen Genauigkeiten und Arbeitsgeschwindigkeiten auf Github vor, die alle auf mit einer Grafikkarte ausgestatteten Heim-PCs laufen. Je nach Modell sind dafür GPUs von 1 bis 10 GB VRAM erforderlich. Die ersten vier Modelle umfassen nur Englisch, nur das größte wurde mit vielen anderen Sprachen trainiert und bietet deswegen auch die Möglichkeit, gesprochene Worte aus einer Sprache in eine andere zu übersetzen und als Text auszugeben.

Trainiert wurde der Encoder-Decoder-Transformer Whisper anhand von 680.000 Stunden Audiomaterial (samt Transkriptionen) aus dem Internet, davon waren zwei Drittel englischsprachig, der Rest in anderen Sprachen. Die Spracherkennung funktioniert dabei überraschend gut - auch bei undeutlicher Sprache oder störenden Hintergrundgeräuschen.

Erste Anwendungen und Tools nutzen Whisper

Die Bedienung erfolgt ganz simpel per Kommandozeile - aber ähnlich wie bei Stable Diffusion sorgt der offen zugängliche Quellcode auch bei Whisper dafür, daß gerade massenhaft Tools programmiert werden, die dessen Fähigkeiten für besondere Aufgaben nutzen oder auch einfach die Handhabung durch eine graphische Benutzeroberfläche (GUI) vereinfachen.

Simon Says Audio Transcription Service — Whisper Architektur

Zur Nutzung von Whisper muss nicht einmal ein Programm auf dem eigenen PC installiert werden, Whisper kann auch über Webdienste genutzt werden. So gibt es auf dem KI-Community Huggingface zum Beispiel ein einfaches Tool, YouTube Whisperer, mit dessen Hilfe die gesprochenen Worte eines YouTube Videos automatisch in Text transkribiert werden können. Ein anderes, noch sehr simples Tool erlaubt es, den Live-Audioinput per Mikrofon in Text umzuwandeln. Es gibt auch ein eher spielerisches Google Colab Projekt, welches Whisper mit Stable Diffusion integriert und es so ermöglicht, automatisch Bilder aus englischsprachigen mp3-Dateien zu erzeugen.

Die Zukunft: KI Tools für Alle - und automatische Untertitelung

Für die User ist Whisper ein weitere interessante und praktische KI-Funktion, die in Zukunft (kostenlos!) für alle möglichen Aufgaben genutzt werden kann. Audio-Transkription ist damit kein Herrschaftswissen mehr, das nur in speziellen Pay-Apps nutzbar ist (oder auf OS Ebene wie in Android oder per Siri). Wir sind gespannt auf die kommenden Programme, welche Whisper für neue interessante Funktionalitäten im Bereich Video nutzen werden, wie zum Beispiel eine automatische Indizierung Filmarchiven nach in den Clips gesprochenen Worten, welche dann per Text nach Dialogstellen durchsuchbar sind oder die automatische Erstellung von Textabschriften von Telefonanrufen oder anderen Audioaufzeichnungen. Für Filmemacher bzw. Videopodcaster besonders interessant ist natürlich auch die Möglichkeit, automatisch Untertitel in mehreren Sprachen zu erstellen und diese je nach Herkunft des Zielpublikums anzubieten.

Das Ende von Audio-Transkriptionsdiensten?

Für Anbieter von speziellen bezahlten KI-Transkriptionsdiensten wie etwa Simon Says für Videos ist Whisper eine schlechte Nachricht, wird doch deren Geschäftsmodell dadurch nahezu hinfällig - ihnen bleibt nur noch das Anbieten eines besonderen Interfaces und von nützlichen Zusatzfunktionen. Adobe hatte ja bereits das Ende solcher externen Pay-Services für Videos eingeläutet, indem es eine Audio-Transkription in Adobe Premiere Pro per

Adobe Sensei integrierte.

mehr Bilder zur News:

mehr Infos bei
openai.com

Auf Socials teilen:

Leserkommentare // Neueste

R S K // 12:36 am 30.9.2022

Und wenn man null Interesse an nur halbwegs korrekter Transkription, nicht ein einziges Satzzeichen und das ignorieren sämtlicher Pausen u.v.m. hat—was man dann stundenlang...weiterlesen

Frank Glencairn // 12:07 am 30.9.2022

Wenn's nicht eilt, kann man ein Video auch einfach auf YT hochladen, und dann das fertige Transcript wieder runter landen.

R S K // 11:45 am 30.9.2022

Abgesehen von dem sehr fragwürdigen Deutsch (und das von einem nicht native) ist die Aussage bzgl. Descript „Sie erhalten Ihre Aufgabe(?) innerhalb von nur 24 Stunden”...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

DALL-E 2: KI generiert und editiert Bilder nur anhand von Textbeschreibung

Vor etwas über einem Jahr hatte OpenAI die erste Version von DALL-E gestartet, einem neuronalen Netz, welches Bilder nur anhand einfacher Textbeschreibungen generieren kann. Jetzt ...

// 17:22 So, 10. Apr 2022von Thomas Richter

News

Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die ...

Seit kurzem steht die Frage im Raum, wie Künstler und Stock-Fotodienste überleben können, wenn bildgenerierende KIs wie DALL-E 2, Stable Diffusion oder Midjourney beliebige Bilder ...

// 09:41 Sa, 5. Nov 2022von Thomas Richter

News

WhisperX: Kostenlose lautgenaue Audiotranskription mit Sprechererkennung

Im September hatte OpenAI, die Entwickler unter anderem der Text-KI ChatGPT und der Bildgenerierungs-KI DALL-E 2, das Spracherkennungssystem Whisper vorgestellt, welches ...

// 11:28 Mi, 1. Feb 2023von Thomas Richter

News

StoryToolkitAI: Kostenlose Transkription und Übersetzung für DaVinci Resolve 18

Wir hatten ja vor kurzem über OpenAIs offenes KI Transkriptions- und Übersetzungsprogramm Whisper berichtet - jetzt hat der deutsche Filmemacher Octavian Mot ein kostenloses ...

// 15:48 Mi, 12. Okt 2022von Thomas Richter

News

KI revolutioniert die Photographie: Objektbasiertes Editing mit Hilfe von DALL-E 2

Wir haben ja schon über die Bilder-KI DALLE-2 und ihre erstaunliche Fähigkeit, beeindruckende Bilder nur per Text-Prompt zu generieren berichtet. Der Photograph Nicholas Sherlock ....

// 12:23 Do, 30. Jun 2022von Thomas Richter

zur Newsübersicht >

Unterstützung für mehr Handys Kostenlose Blackmagic Camera App 1.1 für Android bringt viele neue Funktionen

Vor rund einem Monat hatte Blackmagic seine kostenlose Camera App auch für Android veröffentlicht, jetzt ist bereits das erste Update erschienen, das zahlreiche neue Funktionen ...

// 14:17 Mo, 22. Jul 2024von Thomas Richter

News

Nicht nur 3D Animation Blender 4.2 LTS - kostenloses 3D-Softwarepaket jetzt mit GPU-Compositor

Das quelloffene 3D-Modelling- und Animations-Paket Blender wächst weiter. In der neuen Version 4.2 LTS sind sogar ziemlich relevante Verbesserungen für die Videobearbeitung ...

// 11:50 Sa, 20. Jul 2024von Rudi Schmidts

News

6K bzw. 8K 60p RAW Video Canon EOS R1 und R5 Mark II vorgestellt mit DIGIC Accelerator und mehr

Gleich zwei neue Spitzenmodelle für sein EOS R-System präsentiert Canon heute - die EOS R1 und EOS R5 Mark II bringen beide verbesserte Autofokus-Fähigkeiten sowie eine erweiterte ...

// 12:05 Mi, 17. Jul 2024von blip

News

APS-C Wechselobjektivkamera Kompakte Sony ZV-E10 II mit 10bit 4K 60p und Kinolook-Funktionen angekündigt

Sony verbessert seine kleine "Vlogging"-Kamera ZV-E10 - so verfügt die neue Generation II (wie im Vorfeld gemunkelt) über einen neuen Sensor, Dank welchem nun 4K-Videoaufnahmen ...

// 17:23 Mi, 10. Jul 2024von blip

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Die Stable Diffusion Revolution: Kostenlose Bildgenerierung per KI jetzt auch auf dem Heim-PC

Seit ein paar Tagen ist es endlich soweit: die Text-zu-Bild KI Stable Diffusion wurde veröffentlicht und kann kostenlos auf dem eigenen Computer genutzt werden - damit ist jetzt ...

// 15:03 Di, 30. Aug 2022von Thomas Richter

zur Artikelübersicht >

Aktuelle News //

News

Geleakte Liste Runway Gen-3 Video-KI wurde an tausenden, ausgesuchten YouTube-Videos trainiert

KI-Videomodelle werden zunehmend besser, die Qualität ihres Outputs hängt bekanntlich jedoch stark von dem Videomaterial ab, anhand dessen sie lernen, wie Videos auszusehen haben. ...

// 17:13 Fr, 26. Jul 2024von blip

News

Mit besseren Kameras? Neue Drohnen im Anflug: Erst DJI Air 3S, dann Mavic 4?

Schon seit Mai kursieren Gerüchte über ein neues Drohnenmodell von DJI: zunächst drehten sich die Leaks der bekannten Accounts @OsitaLV und @Quadro_News um vereinzelte Abbildungen ...

// 19:14 Do, 25. Jul 2024von Thomas Richter

zur Newsübersicht >