Video als Mikrophon: Sound aus Bildern rekonstruieren

// 16:08 Di, 5. Aug 2014von Thomas Richter

Eine ziemlich phantastisch anmutende Technik hat ein Team von Wissenschaftlern des MIT, Microsoft und Adobe entwickelt, die es ermöglicht, aus reinen Videobildern vor Ort abgespielten Sound zu rekonstruieren. Das ist möglich, weil Töne Druckwellen sind, die die Oberflächen von Objekten in minimale Schwingungen versetzen. Anhand von Highspeedaufnahmen mit 2.000 - 6.000 Bildern pro Sekunde ist es so möglich, diese nicht wahrnehmbaren Schwingungen in Töne zurückzuverwandeln - nicht in bester Qualität, aber doch so, dass Melodien und sogar gesprochene Worte gut erkennbar sind. Im Beispielvideo werden so z.B. anhand von Schwingungen eines Pflanzenblattes sowie einer Chipstüte Töne rekonstruiert. Voraussetzung ist, dass die Bildwiederholungsrate über der Audiofrequenz der abgspielten Töne liegt.

Durch einen Trick ist die Rekonstruktion von Tönen - wenn auch in schlechterer Qualität - aber auch mit Videoaufnahmen von handelsüblichen Kameras möglich. Denn bei Videos mit normalen Bildwiederholungsraten (wie im Beispielvideo 60 fps) ermöglicht der sonst so ungern gesehene Rolling Shutter Effekt von CMOS Bildsensoren eine praktische Anwendung. Er wird nämlich hier dazu genutzt, um mit einer um ein vielfaches höheren Samplingrate (als die Bildwiederholungsrate) die durch die Luftschwingungen bewirkten, minimalen Veränderungen im Bild zu erfassen - denn die Pixel jeder einzelnen Bildzeile werden ja zu einem anderen Zeitpunkt ausgelesen. Voraussetzung fürs Gelingen ist natürlich immer ein geeignetes Objekt groß genug im Bild, welches "Mitschwingen" kann.

Die Anwendungsmöglichkeiten sind noch nicht absehbar: außer zu Spionage (falls ein ähnliches Verfahren dort nicht eh schon eingesetzt wird) und forensischen Zwecken, könnte die Technik auch für die Materialforschung genutzt werden - in Zukunft werden sich aber sicher noch viele weitere Anwendungsmöglichkeiten finden, der Programmcode soll demnächst veröffentlicht werden. Und als Filmer sollte man beim Dreh ab sofort vorsichtig sein, was während der Aufnahme geredet wird, denn später könnte ja jederzeit trotz nachträglich erstellter Tonspur jedes gesprochene Wort vor Ort rekonstruiert werden. Alte, bereits veröffentlichte (per CMOS gemachte) Aufnahmen sind natürlich auch bald analysierbar - da werden also vielleicht noch einige nette (und nicht so nette) Überraschungen auf uns zukommen.

// Top-News auf einen Blick:

Das gleiche Team von Forschern hatte schon den Algorithmus entwickelt, mit dessen Hilfe kaum wahrnehmbare Veränderungen in einem Videobild verstärkt und so sichtbar gemacht werden konnten - er wurde auf der Siggraph 2012 vorgestellt. Ermöglicht wurde so etwa das Messen der Pulsrate eines Menschen anhand von Videobildern. Die neue Technik ist eine Weiterführung dieser Forschungen.