Ließ vor drei Jahrzehnten ein Blue- oder Greenscreen-Studio das Herz eines Werbefilm- oder Musikvideo-Produzenten höher schlagen wenn es um die größten Budgets ging, so darf es heutzutage noch ein paar Nummern größer sein. Wie wäre es mit "Volumetrischen Videos"? Denn die sind gerade das nächste große (und teure) Ding in der Videoproduktion.
Unter anderem in London und Berlin kann man aktuell die ersten (teil-)funktionsfähigen Studios für Volumetrische Videoproduktion buchen. Doch was bedeutet dies eigentlich? Es geht hierbei um eine relativ simple Idee (die u.a. auch schon Lytro in abgewandelter Form hatte): Unzählige Kameras filmen eine Szene synchron im Raum aus sehr vielen nah beieinander liegenden Blickwinkeln. (Dies resultiert in Datenraten von bis zu 600 Gigabyte pro Minute.)
Vom Datenberg in die Point-Cloud
Aus diesen Clips lassen sich anschließend bewegte Point-Clouds errechnen, was man sich wie eine errechnete 3D-Welt aus der gefilmten Szene vorstellen kann. Anschließend kann man mit einer virtuellen Kamera in dieser Szene herumfahren. Man kann sich dabei fast völlig frei im Raum bewegen und somit nahezu jede beliebige Kameraposition in der Postproduktion festlegen. Aktuell kann ein Studio dabei laut c´t mit einem fünfstelligen Eurobetrag pro Minute Aufnahmezeit kalkulieren.
Die dabei eingesetzten Software-Pakete sind noch handgestrickt, weshalb man die Aufnahmen nicht in gängigen Schnittprogrammen außerhalb der Studios selber bearbeiten kann. Hier arbeitet jeder (unter anderem auch Microsoft) noch mit eigenen proprietären Lösungen. Da jedoch schon viele Schnittprogramme mit 360 Grad-Videos umgehen können, ist der Schritt in diese Richtung vielleicht gar nicht mehr so weit.
Wir selber haben uns auch immer mal wieder ein paar Gedanken gemacht, wie man eine solche Umgebung vielleicht deutlich günstiger für den Independent-Gebrauch umstricken könnte. Eine mögliche Herangehensweise wäre dabei sicherlich das Hantieren mit weniger Kameras in einem engeren Aufnahmewinkel. Anschließend wäre vielleicht eine einfache Interpolation mit OpticalFlow-Algorithmen möglich.
Im Compositing sind Point-Clouds übrigens schon seit längerer Zeit angekommen, jedoch gibt es noch keine idiotensichere Bedienung um einfach aus mehreren Kameras eine virtuelle Kamerafahrt zu erzeugen. Wer weiß, vielleicht bietet ja Blackmagic in Resolve bald eine entsprechende Lösung, da in Resolve+Fusion die nötigen Zutaten hierfür bereits länger bereit stehen.
Künstliche Intelligenz für Interpolation
Ein weitere Überraschung dürfte allerdings aus der KI-Ecke hinzu kommen: Denn mittels künstlicher Intelligenz wird die benötigte Interpolation zwischen den Kamerapositionen in naher Zukunft auf ein höheres Niveau gelangen. Am letzten Donnerstag hat DeepMind, also Googles KI-Ausleger ein mehr als bemerkenswertes Forschungsergebnis präsentiert. Generative Query Network (GQN) ist eine Netzwerktopologie, die tatsächlich ein räumliches Verständnis entwickeln kann, wenn man ihr nur ein paar Bilder aus verschiedenen Perspektiven zeigt. Vielleicht sollten wir hierzu etwas ausholen, warum dies revolutionär ist.
Wenn es darum geht, wie wir eine visuelle Szene verstehen, schöpft unser Gehirn aus dem Vorwissen und der Erinnerung, um Rückschlüsse zu ziehen. Diese Rückschlüsse gehen weit über die Lichtmuster hinaus, die wir geliefert bekommen.
So erkennen wir beim ersten Betreten eines Raumes sofort, welche Objekte er enthält und wo sie sich befinden. Wenn man drei Beine eines Tisches sieht, gehet man "blind" davon aus, dass es auch noch ein viertes Bein mit der gleichen Form und Farbe gibt, das nicht sichtbar ist. Selbst wenn man nicht alles im Raum sehen kann, kann man trotzdem einen Grundriss skizzieren oder sich vorstellen, wie er aus einer anderen Perspektive aussieht. Ohne gewisse Annahmen, die wir als Menschen besitzen, lässt sich ein Raum nicht sinnvoll mathematisch in einem 3D-Modell abbilden.
Doch genau dies verspricht nun DeepMind in ersten Ansätzen zu beherrschen. So können die GQNs ein vollständiges 3D-Modell einer Szene aus nur einer Handvoll 2D-Schnappschüssen generieren. Das System kann sich die Szene anschließend aus jedem beliebigen Blickwinkel vorstellen und auch reproduzieren. Bemerkenswert ist auch , dass das System einzig auf Eingaben von eigenen Bildsensoren beruht und es autonom ohne menschliche Aufsicht lernt. Damit könnte es ohne menschliches zutun Modelle (z.B. eine Szene in einem Schnittprogramm) als 3D-Raum interpretieren.
Noch besitzen GQNs enge Grenzen. Erst in relativ einfachen Szenen konnten sie mit wenigen Objekten ihre Funktionsfähigkeit beweisen. Allerdings zeigen sie unzweifelhaft, dass sie ein dreidimensionales Verständnis von einer Szene aufgrund von Aufnahmen aus einem anderen Blickwinkel erlernen können, dass sich von einem realen Rendering dieses Blickwinkels nicht relevant unterscheidet. Und dies bedeutet nicht weniger, als dass in sehr naher Zukunft eine hochqualitative Interpolation zwischen zwei Kamera-Perspektiven möglich sein wird. Und damit auch feinste, virtuelle Kamerafahrten sowie andere hochqualitative Point-Cloud Anwendungen für jedermann mit genügend Rechenleistung.
Aktuell sieht man volumetrisches Video allerdings noch eher als Aufzeichnungsmedium für "begehbare"-VR-Filme, wie unter anderem dieses Video darstellt: