Entwickler von Netflix haben einen KI-Algorithmus namens VOID (Video Object and Interaction Deletion) veröffentlicht, der nicht nur Objekte aus Videos spurlos entfernt, sondern - und das ist der Clou - auch alle Folgen dessen physikalischer Interaktionen. Das ermöglicht einfacheres und zugleich mächtigeres Objekt-Editing als bisher, denn der neue Algorithmus "versteht", was sich in einem Handlungsablauf alles ändert, wenn ein Objekt entfernt wird. Wird ein Objekt entfernt, werden auch die vorherigen Wechselwirkungen mit anderen Gegenständen in allen Bildern entfernt.

Damit geht VOID einen Schritt weiter als bisherige ähnliche Verfahren zum objektbasierten Editing: klassische Methoden rekonstruieren zwar den Hintergrund hinter einem entfernten Objekt überzeugend und korrigieren auch dessen visuelle Begleiterscheinungen wie Schatten oder Spiegelungen, aber sie funktionieren nicht auf einer höheren Ebene, d.h. wenn das entfernte Objekt kausal in das Geschehen eingreift.
Wird zum Beispiel ein Ball aus einer Szene entfernt, der zuvor ein anderes Objekt angestoßen hat, reicht es nicht aus, nur den Ball selbst verschwinden zu lassen. Soll das Editing wahrhaft objektorientiert erfolgen, dann muss auch die Bewegung des angestoßenen Objekts sich ändern. Genau an dieser Stelle stoßen viele bestehende Algorithmen an ihre Grenzen: Sie erzeugen zwar eine visuell bereinigte Szene, lassen aber von ihm physikalisch verursachte Bewegungen oder Folgeeffekte bestehen, die die Szene dann seltsam aussehen lassen.
VOID dagegen kann die betreffenden Szenen quasi neu erzeugen in einer Version, die zeigt, wie sich die Szene entwickelt hätte, wenn das entfernte Objekt nie vorhanden gewesen wäre und die im Originalvideo zu sehenden Wechselwirkungen nicht stattgefunden hätten. Der Fokus verschiebt sich so vom reinen Inpainting hin zu einer Rekonstruktion veränderter Dynamiken im gesamten Szenenverlauf. Dazu muss VOID die physikalischen Interaktionen der Objekte in einem Video "verstehen" und die gesamte Szene neu generieren. Wird etwa ein Bowlingball aus einem Kegelvideo (wie in der Demo auf der Projektseite unter dem Punkt "Results" zu sehen) entfernt, dann werden die Kegel nicht mehr von ihm umgeschmissen.

Kombination aus Sprach-Bild-Verständnis und Videodiffusion
Erreicht wird diese hohe Komplexität durch die Kombination mehrerer Modellkomponenten - so analysiert zunächst ein Vision-Language-Modell (VLM) die Szene und identifiziert jene Regionen, die durch das zu entfernende Objekt kausal betroffen sind. Dazu gehören etwa Objekte, die ohne den entfernten Gegenstand nicht gefallen wären, keine Kollision erlebt hätten oder eine andere Flugbahn genommen hätten.
// Top-News auf einen Blick:
- Adobe MotionStream - künftig Echtzeit-Kontrolle über KI-Videogenerierung?
- DJI Osmo Pocket 4 bekommt 107 GB Speicher - bald Pocket 4 Pro mit Dual-Kamera
- DJIs neue Einsteiger-Drohne Lito kommt am 23. April - mit OcuSync 5?
- Blackmagic Camera 3.3 macht iPhone zur Studiokamera - plus Steuerung per Apple Watch
- GoPro MISSION 1 Pro - 8K-Actioncams mit 1-Zoll-Sensor und MFT-Mount
- Die Riedel Group übernimmt Traditionshersteller ARRI

Die Bedienung ist denkbar einfach: per Klick werden jene Objekte markiert, die aus einem Video entfernt werden sollen. Netflix hat VOID frei veröffentlicht, d.h. man kann es zum Beispiel per Huggingface selbst nutzen - Voraussetzung ist allerdings eine GPU mit mindestens 40 GB VRAM, wie etwa eine Nvidia A100, die aber auf Huggingface gemietet werden kann. Es kann auch per Demo ausprobiert werden.
Vergleich mit anderen Tools
Es gibt weitere Tools, welche zur Entfernung von Objekten eingesetzt werden können, wie etwa Runway, Generative Omnimatte, MiniMax-Remover und ProPainter. Laut den Netflix-Entwicklern ist VOID diesen Alternativen deutlich überlegen. Bei einem kleinen Vergleich mit 25 Personen über mehrere Szenarien hinweg wurde VOID in 64,8 Prozent der Fälle bevorzugt, während Runway mit deutlichem Abstand auf dem zweiten Platz bei 18,4 Prozent landete.

VOID als neues mächtiges Tool
Für die professionelle Videobearbeitung ist VOID noch nicht geeignet, es funktioniert nur mit Videoclips von wenigen Sekunden und auch die Auflösung ist zu gering. Aber wie wir aus der bisherigen Entwicklung solcher KI-Algorithmen kennen, wird es nicht lange dauern, bis aus dem Prototypen ein funktionsfähiges Tool wird, das auch weniger Speicher verbraucht.
Dann wird es zukünftig in Schnitt- oder Compositingprogramme integriert werden und noch mächtigeres Objektediting als bisher ermöglichen. Dies wird den manuellen Aufwand für die Nachbearbeitung solcher Szenen drastisch verringern - insbesondere wenn die entfernten Objekte andere Szenenelemente beeinflusst haben.


















