Microsoft ermöglicht automatische Echtzeit-Transkription von komplexen Gesprächen

// 09:34 So, 7. Jul 2019von Thomas Richter

Die automatische Transkription von menschlicher Sprache in Text funktioniert im allgemeinen ganz gut, ein Problem haben aber bis jetzt komplexere Gesprächssituationen wie etwa Diskussionen dargestellt, in denen mehrere Sprecher manchmal gleichzeitig reden - bisher für die Spracherkennungsalgorithmen ein unüberwindbares Hindernis.

Microsoft hat das Problem jetzt mit einem ganz besonderen Ansatz gelöst. Die Besonderheit des Projekt Denmark getauften, auf einem neuronalen Netz basierenden Algorithmus ist seine Fähigkeit, auch mehrere gleichzeitig redende Stimmen in Echtzeit zu identifizieren, um die von ihnen gesprochenen Worte in Text umzuwandeln.

Zur optimalen Erkennung der verschiedenen Stimmen und des Gesagten verwendet Microsoft mehrere im Raum verteile Mikrophone - praktischerweise können anstatt dezidierter Mikrophonen auch mehrere in Smartphones oder etwa Notebooks integrierte Mikrophon - via Cloud zusammengeschaltet - genutzt werden. Diese bilden eine Art virtuelle Mikrophonmatrix, um so die Stimmen aus mehreren Positionen im Raum aufzunehmen und die zusätzlichen Informationen (wie die unterschiedliche Lautstärke und Laufzeit der Signale) zur Analyse nutzen zu können.

// Top-News auf einen Blick:

Praktisch ist so ein Transkriptionssystem ebenso für Verschriftlichung von auf Konferenzen oder Meetings gesagtem, aber auch zum Beispiel für dokumentarische Filmemacher. Ein anderes Einsatzgebiet sind intelligente sprachbasierte Assistenten wie Alexa, die bisher noch auf eindeutige Kommandos einer Person angewiesen sind und mit Stimmgewirr nichts anfangen können.

Der neue Transkriptionsalgorithmus ist über Microsofts Azure Speech Service für größere Unternehmen verfügbar und hoffentlich auch bald in Form einer App/Plugins oder Dienstes für Endanwender.

mehr Infos bei
www.microsoft.com

Auf Socials teilen:

Microsoft ermöglicht automatische Echtzeit-Transkription von komplexen Gesprächen

// Top-News auf einen Blick:

Blackmagic DaVinci Resolve 18.5 Beta 3 bringt zahlreiche Verbesserungen

StoryToolkitAI: Kostenlose Transkription und Übersetzung für DaVinci Resolve 18

Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in ...

Blackmagic DaVinci Resolve 18.0.2 Update behebt unter anderem Probleme beim Export ...

Blackmagic DaVinci Resolve 18.5 Beta 2 ist da!

Lang erwartetes Upgrade DJI Mavic 4 Pro - 6K Video, 360° Gimbal, RC Pro 2,eND und bessere Hinderniserkennung

Kostenloses Update Blackmagic DaVinci Resolve 20 Beta 3 ist da

Timeline-Compositing DaVinci Resolve 20 Workshop - Photoshop Layer-Split und der neue Keyframe Editor

Perfect Match? Die korrekte anamorphe Abstimmung von Kamera und Objektiv

Adobe Premiere Pro - Filler Word Detection und Enhance Speech erklärt

Textbasiertes Editing und die Zukunft der KI in Adobe Premiere Pro

Beginnender CPU Preiskampf? Drastische Preissenkung bei Intel Mainstream-CPU - Core Ultra 7 265KF unter 300 Euro

Cinecraft ZEISS entwickelt virtuelle Objektive für VFX

ARTIKEL

THEMEN