Wir haben uns ja schon daran gewöhnt, dass KI es mittlerweile ziemlich überzeugend schafft, einzelne Instrumenten-Tracks aus komplett gemasterten Stereo-Songs zu extrahieren. Also sollte es uns auch nicht wundern, wenn es nun möglich wird, ein Video in einzelne Layer zu zerlegen. Und nicht weniger als dies verspricht Generative Omnimatte.
Dieses neuartige KI-Modell versucht, einen Videoclip in semantisch sinnvolle Ebenen (Layer) zu zerlegen, die einzelne Objekte sowie die damit verbundenen Effekte wie Schatten und Reflexionen enthalten. Bestehende Methoden benötigten bisher mindestens einen statischen Hintergrund oder basierten auf einer Posen- bzw. Tiefenschätzung für die Layer. Zudem scheiterten bisherige Methoden an einem grundsätzlichen Problem: Dynamische verdeckte Bereiche zwischen Objekten bzw. Layern können diese nicht vervollständigen, da sie kein Wissen über die verdeckten Bereiche in sich tragen.
Dies soll sich mit Generative Omnimatte ändern, welches fehlende, bzw. unbekannte Inhalte auch im Bewegtbild durch generative KI vervollständigen kann. Man spricht in diesem Zusammenhang von "Ergänzung durch generatives Vorwissen".
Generative Omnimatte erfordert keine Informationen zu Kameraposition oder Tiefe und erzeugt vollständige Ebenen - einschließlich meist überzeugender Vervollständigungen verdeckter dynamischer Bereiche.
Dies funktioniert wohlgemerkt nicht durch Zerlegen von bestehenden Compositings sondern bei jeder beliebigen Videoaufnahme. Das hierzu veröffentlichte Paper sowie die spezielle Projektwebseite mit Demos zeigt eine große Bandbreite beliebig aufgenommener Videos mit weichen Schatten, glänzenden Reflexionen, Spritzwasser und mehr.
Hinter Generative Omnimatte stehen übrigens Forscher von Google DeepMind, der University of Maryland College Park sowie das Weizmann Institute of Science. Solche Veröffentlichungen stellen zwar "nur" den aktuellen Stand der Forschung dar, jedoch ist abzusehen, dass wir generative De-Compositing-Technologien bald auch in unseren Schnitt- und Compositing-Programmen als nutzbare Tools finden werden.