Künstliche Intelligenz für Interpolation
Ein weitere Überraschung dürfte allerdings aus der KI-Ecke hinzu kommen: Denn mittels künstlicher Intelligenz wird die benötigte Interpolation zwischen den Kamerapositionen in naher Zukunft auf ein höheres Niveau gelangen. Am letzten Donnerstag hat DeepMind, also Googles KI-Ausleger ein mehr als bemerkenswertes Forschungsergebnis präsentiert. Generative Query Network (GQN) ist eine Netzwerktopologie, die tatsächlich ein räumliches Verständnis entwickeln kann, wenn man ihr nur ein paar Bilder aus verschiedenen Perspektiven zeigt. Vielleicht sollten wir hierzu etwas ausholen, warum dies revolutionär ist.
Wenn es darum geht, wie wir eine visuelle Szene verstehen, schöpft unser Gehirn aus dem Vorwissen und der Erinnerung, um Rückschlüsse zu ziehen. Diese Rückschlüsse gehen weit über die Lichtmuster hinaus, die wir geliefert bekommen.
So erkennen wir beim ersten Betreten eines Raumes sofort, welche Objekte er enthält und wo sie sich befinden. Wenn man drei Beine eines Tisches sieht, gehet man "blind" davon aus, dass es auch noch ein viertes Bein mit der gleichen Form und Farbe gibt, das nicht sichtbar ist. Selbst wenn man nicht alles im Raum sehen kann, kann man trotzdem einen Grundriss skizzieren oder sich vorstellen, wie er aus einer anderen Perspektive aussieht. Ohne gewisse Annahmen, die wir als Menschen besitzen, lässt sich ein Raum nicht sinnvoll mathematisch in einem 3D-Modell abbilden.
Doch genau dies verspricht nun DeepMind in ersten Ansätzen zu beherrschen. So können die GQNs ein vollständiges 3D-Modell einer Szene aus nur einer Handvoll 2D-Schnappschüssen generieren. Das System kann sich die Szene anschließend aus jedem beliebigen Blickwinkel vorstellen und auch reproduzieren. Bemerkenswert ist auch , dass das System einzig auf Eingaben von eigenen Bildsensoren beruht und es autonom ohne menschliche Aufsicht lernt. Damit könnte es ohne menschliches zutun Modelle (z.B. eine Szene in einem Schnittprogramm) als 3D-Raum interpretieren.
Noch besitzen GQNs enge Grenzen. Erst in relativ einfachen Szenen konnten sie mit wenigen Objekten ihre Funktionsfähigkeit beweisen. Allerdings zeigen sie unzweifelhaft, dass sie ein dreidimensionales Verständnis von einer Szene aufgrund von Aufnahmen aus einem anderen Blickwinkel erlernen können, dass sich von einem realen Rendering dieses Blickwinkels nicht relevant unterscheidet. Und dies bedeutet nicht weniger, als dass in sehr naher Zukunft eine hochqualitative Interpolation zwischen zwei Kamera-Perspektiven möglich sein wird. Und damit auch feinste, virtuelle Kamerafahrten sowie andere hochqualitative Point-Cloud Anwendungen für jedermann mit genügend Rechenleistung.
Aktuell sieht man volumetrisches Video allerdings noch eher als Aufzeichnungsmedium für "begehbare"-VR-Filme, wie unter anderem dieses Video darstellt: