Bewegte Objekte in Videos können dank neuer KI nur per Beschreibung maskiert werden

// 16:02 Di, 23. Aug 2022von Thomas Richter

Bewegte Objekte in Videos zu maskieren, um sie getrennt von allen anderen Inhalten zu bearbeiten, war früher eine extrem zeitaufwändige Arbeit. Inzwischen wurde sie dank neuer DeepLearning Algorithmen immer einfacher - oft muss nicht einmal mehr eine Maske um ein Objekt gezeichnet werden, sondern es reicht das Setzen mehrerer Punkte, um ein Objekt auszuwählen, welches dann vom Algorithmus selbstständig erkannt und über die nächsten Frames weiterverfolgt und maskiert wird.

Der neue Deep Learning Algorithmus ("Language as Queries for Referring Video Object Segmentation") eines Teams aus der University of Hong Kong vereinfacht diese Arbeit noch weiter: hier kann das gewünschte Objekt einfach per Text beschrieben werden, um es auszuwählen, wie zum Beispiel "ein Pferd, welches hohe Sprünge macht":

Aufgrund dieser simplen Beschreibung wird das Objekt im Video erkannt und von einer dynamischen Maske über alle folgenden Einzelbilder verfolgt. Die kombinierte Sprach- und Bildanalyse des Algorithmus funktioniert dabei so gut, daß die Beschreibung des gewünschten Objekts auch recht komplex sein kann. So identifiziert der Algorithmus etwa auch ein Objekt durch seine dynamischen Beziehungen zu anderen Objekten oder seiner Lage im Raum, wie etwa "die Person, die auf einem Skateboard fährt".

Der KI-Algorithmus erledigt dazu eine ganze Reihe komplexer Aufgaben aus den Bereichen Text- und Videoverständnis: erst muss er den eingegebenen Text "verstehen", dann alle Objekte in einem Video samt dynamischer Beziehungen erkennen und aufgrund der vom User gegebenen Beschreibung das korrekte Objekt identifizieren (samt seiner Eigenschaften, wie etwa der Farbe und Beziehungen zu einem anderen Objekt wie etwa "der Tennisschläger in der Hand des Spielers mit dem roten Hemd").

// Top-News auf einen Blick:

Bewegte Objekte in Videos können dank neuer KI nur per Beschreibung maskiert werden

Dann muss das Objekt vom Hintergrund getrennt und über alle Frames, in denen es auftaucht, verfolgt und daraus eine dynamische Maske gebildet werden - auch wenn das Objekt sein Aussehen durch Bewegungen und Perspektivwechsel verändert. Die Maske muss idealerweise nicht mehr per Hand nachträglich angepasst werden. Sogar dynamische Handlungen, die sich über eine Videosequenz erstrecken, werden korrekt in einem längeren Video erkannt, wie etwa "die Hand, die dem Hund einen Ball gibt".

A horse that jumps high — Ein Pferd, welches hoch springt

Der neue Algorithmus verbessert vorhergehende ähnliche Methoden nochmals und demonstriert sehr anschaulich, welche komplexen Aufgaben durch die Kombination verschiedener Deep Learning Methoden inzwischen bewältigt werden können. In seinem jetzigen Zustand könnte die Methode zum Beispiel verwendet werden, um in einem Videoarchiv bestimmte Objekte zu finden und sie zu extrahieren. Ein kleiner weiterer Schritt würde zum Beispiel auch die Suche per natürlicher Spracheingabe ermöglichen, ein größerer weiterer Schritt könnte das Editieren von Objekten samt deren Austausch in einem Video per Spracheingabe ermöglichen.

Der Programmcode kann wie immer auch selbst ausprobiert werden - das entsprechende Vorwissen vorausgesetzt. Wer mehr zur Methode lernen will, kann die zugehörige Forschungsarbeit lesen.

mehr Infos bei
github.com

Auf Socials teilen:

Leserkommentare // Neueste

Kommentieren >>

Ähnliche News //

News

Verpixeln leicht gemacht Meta Segment Anything 2 - kostenloses Tool maskiert interaktiv Objekte in Videos

Bewegte Objekte in Videos zu erkennen, auf Wunsch automatisch zu maskieren und über ganze Videosequenzen zu verfolgen, ist die Grundlage für viele interessante Videoeffekte. Metas ...

// 10:52 Do, 1. Aug 2024von Thomas Richter

News

Track-Anything: Neues KI-Tool maskiert und trackt Objekte in Videos automatisch

Roto Brush in After Effects Adé - das KI Tools Track-Anything erkennt, maskiert und trackt Objekte in Video automatisch. Wie erhofft, hat Metas frei ins Netz gestellter ...

// 15:59 Do, 27. Apr 2023von Thomas Richter

News

Segment Anything Neue freie Meta KI erstellt automatisch Masken für alle Objekte in Fotos oder Videos

Meta hat die extrem interessante KI zur Erstellung von Objektmasken veröffentlicht und auch gleich zur freien Verfügung ins Netz gestellt. "Segment Anything" (SAM) erkennt Objekte ...

// 12:18 So, 9. Apr 2023von Thomas Richter

News

KI-Tools, Keyframe-Editor etc. Blackmagic DaVinci Resolve 20 mit über 100 (!) neuen Funktionen vorgestellt

Neben der neuen Pyxis 12K hat Blackmagic natürlich auch das traditionelle Frühjahr-Update seines kostenlosen Grading-, Schnitt-, Compositing- und Audio-Mastering-Programms DaVinci ...

// 22:20 Fr, 4. Apr 2025von blip

News

TikTok prescht vor: KI generiert Bilder nach Beschreibung

DeepLearning-Systeme, die Bilder gemäß Textkommandos generieren (wie zum Beispiel DALL-E 2 oder Stable Diffusion) waren bisher nur einem eher kleinen Nutzerkreis vorbehalten. Nun ....

// 19:51 Mi, 17. Aug 2022von Thomas Richter

zur Newsübersicht >

Viele Verbesserungen Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes

Kaum drei Wochen nach der Veröffentlichung der Version 20 von Resolve hat Blackmagic schon die zweite Beta seines kostenlosen Grading-, Schnitt-, Compositing- und Audio-Mastering-....

// 12:19 Mi, 23. Apr 2025von Thomas Richter

News

E-Mount Zoom Sony stellt FE 50-150mm F2 GM Zoom für Pros vor: Lichtstark, leicht und hochpreisig

Mit dem FE 50-150mm F2 stellt Sony ein bemerkenswert lichtstarkes Vollformat-Zoom vor, das für professionelle Anwender in den Bereichen Hochzeit, Porträt, Indoor-Sport usw. ...

// 08:00 Mi, 23. Apr 2025von Rob

News

Universeller Speicher Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen

Forscher der Fudan-Universität in Shanghai haben einen neuen Geschwindigkeits-Weltrekord für Flash-Speicher aufgestellt. Der von ihnen in 10-jähriger Arbeit entwickelte "PoX" ...

// 10:05 Di, 22. Apr 2025von Thomas Richter

Ratgeber

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Wer die Entwicklung aktueller Video-KI-Modelle verfolgt, sieht fast jeden Tag neue Sensationen. Da liegt es nahe, auch einmal selbst Hand anzulegen, um eigene Erfahrungen mit der ...

// 11:35 Di, 15. Apr 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

Aktuelles

Nikon Z8 RAW Grading-Wettbewerb - der Gewinnerbeitrag und wie das Grading umgesetzt wurde

Für unseren Nikon RAW Grading-Wettbewerb hatten wir drei Sequenzen zur Verfügung gestellt, die es in sich hatten. Welches Grading gewonnen hat und wie es in Resolve umgesetzt ...

// 15:33 Mo, 16. Okt 2023von slashCAM

zur Artikelübersicht >

Aktuelle News //

News

Ohne Kontrolle Schauspieler als unfreiwillige Werbefiguren - Die dunkle Seite digitaler KI-Klone

Wer würde nicht gerne mit minimalem Aufwand Geld verdienen? Das haben sich wohl Schauspieler gedacht, die für mehrere tausend Dollar ihren digitalen Doppelgänger an einen Anbieter ...

// 10:53 Do, 1. Mai 2025von Thomas Richter

News

Nach 25 Jahren wiederbelebt Günstige RF Kit-Zoomoptik - Canon RF 75-300 mm F4.0-5.6

Canon hat in mehreren Ländern gerade eine RF-Mount-Version seines preisgünstigen Vollformat-Telezoomobjektivs 75-300 mm F4.0-5.6 angekündigt. Das optische Design dieser Optik ist ....

// 14:39 Mi, 30. Apr 2025von Rudi Schmidts

zur Newsübersicht >