Logo
/// News

Microsoft ermöglicht automatische Echtzeit-Transkription von komplexen Gesprächen

[09:34 So,7.Juli 2019 [e]  von ]    

Die automatische Transkription von menschlicher Sprache in Text funktioniert im allgemeinen ganz gut, ein Problem haben aber bis jetzt komplexere Gesprächssituationen wie etwa Diskussionen dargestellt, in denen mehrere Sprecher manchmal gleichzeitig reden - bisher für die Spracherkennungsalgorithmen ein unüberwindbares Hindernis.

Microsoft hat das Problem jetzt mit einem ganz besonderen Ansatz gelöst. Die Besonderheit des Projekt Denmark getauften, auf einem neuronalen Netz basierenden Algorithmus ist seine Fähigkeit, auch mehrere gleichzeitig redende Stimmen in Echtzeit zu identifizieren, um die von ihnen gesprochenen Worte in Text umzuwandeln.


speech-figure-1


Zur optimalen Erkennung der verschiedenen Stimmen und des Gesagten verwendet Microsoft mehrere im Raum verteile Mikrophone - praktischerweise können anstatt dezidierter Mikrophonen auch mehrere in Smartphones oder etwa Notebooks integrierte Mikrophon - via Cloud zusammengeschaltet - genutzt werden. Diese bilden eine Art virtuelle Mikrophonmatrix, um so die Stimmen aus mehreren Positionen im Raum aufzunehmen und die zusätzlichen Informationen (wie die unterschiedliche Lautstärke und Laufzeit der Signale) zur Analyse nutzen zu können.

Praktisch ist so ein Transkriptionssystem ebenso für Verschriftlichung von auf Konferenzen oder Meetings gesagtem, aber auch zum Beispiel für dokumentarische Filmemacher. Ein anderes Einsatzgebiet sind intelligente sprachbasierte Assistenten wie Alexa, die bisher noch auf eindeutige Kommandos einer Person angewiesen sind und mit Stimmgewirr nichts anfangen können.

Der neue Transkriptionsalgorithmus ist über Microsofts Azure Speech Service für größere Unternehmen verfügbar und hoffentlich auch bald in Form einer App/Plugins oder Dienstes für Endanwender.

Link mehr Informationen bei www.microsoft.com

  
[7 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
jjpoelli    10:12 am 8.7.2019
Wie wär's mit selber arbeiten? ;-)
Kamerafreund    08:11 am 8.7.2019
Endlich! Bin bei anderen Transkriptionssevices gescheitert. Da ich vier funkmikros gleichzeitig laufen habe und die Leute teilweise sogar den Raum wechseln und die Transkription...weiterlesen
Framerate25    05:47 am 8.7.2019
Hm, und nu? Alle zu „Prepper“ mutieren und ne Standallone-kiste mit Win7/sp2 und CS6 bereitstehen haben? Nur so für den Fall der Fälle... 🧐 Nützt aber spätestens...weiterlesen
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildExtrabreite Videobilder aus benachbarten Frames extrapolieren // Siggraph 2019 bildAMD liefert 7nm GPUs und CPUs aus: Radeon 5700(XT) und Ryzen 3xxx Serie


verwandte Newsmeldungen:


[nach oben]

















passende Forenbeiträge zur News:

Archive

2019

Juli - Juni - Mai - April - März - Februar - Januar

2018
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 18.Juli 2019 - 11:12
slashCAM
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*