Logo Logo
/// News

Bewegte Objekte in Videos können dank neuer KI nur per Beschreibung maskiert werden

[16:02 Di,23.August 2022 [e]  von ]    

Bewegte Objekte in Videos zu maskieren, um sie getrennt von allen anderen Inhalten zu bearbeiten, war früher eine extrem zeitaufwändige Arbeit. Inzwischen wurde sie dank neuer DeepLearning Algorithmen immer einfacher - oft muss nicht einmal mehr eine Maske um ein Objekt gezeichnet werden, sondern es reicht das Setzen mehrerer Punkte, um ein Objekt auszuwählen, welches dann vom Algorithmus selbstständig erkannt und über die nächsten Frames weiterverfolgt und maskiert wird.





Der neue Deep Learning Algorithmus ("Language as Queries for Referring Video Object Segmentation") eines Teams aus der University of Hong Kong vereinfacht diese Arbeit noch weiter: hier kann das gewünschte Objekt einfach per Text beschrieben werden, um es auszuwählen, wie zum Beispiel "ein Pferd, welches hohe Sprünge macht":



Aufgrund dieser simplen Beschreibung wird das Objekt im Video erkannt und von einer dynamischen Maske über alle folgenden Einzelbilder verfolgt. Die kombinierte Sprach- und Bildanalyse des Algorithmus funktioniert dabei so gut, daß die Beschreibung des gewünschten Objekts auch recht komplex sein kann. So identifiziert der Algorithmus etwa auch ein Objekt durch seine dynamischen Beziehungen zu anderen Objekten oder seiner Lage im Raum, wie etwa "die Person, die auf einem Skateboard fährt".

Der KI-Algorithmus erledigt dazu eine ganze Reihe komplexer Aufgaben aus den Bereichen Text- und Videoverständnis: erst muss er den eingegebenen Text "verstehen", dann alle Objekte in einem Video samt dynamischer Beziehungen erkennen und aufgrund der vom User gegebenen Beschreibung das korrekte Objekt identifizieren (samt seiner Eigenschaften, wie etwa der Farbe und Beziehungen zu einem anderen Objekt wie etwa "der Tennisschläger in der Hand des Spielers mit dem roten Hemd").

network



Dann muss das Objekt vom Hintergrund getrennt und über alle Frames, in denen es auftaucht, verfolgt und daraus eine dynamische Maske gebildet werden - auch wenn das Objekt sein Aussehen durch Bewegungen und Perspektivwechsel verändert. Die Maske muss idealerweise nicht mehr per Hand nachträglich angepasst werden. Sogar dynamische Handlungen, die sich über eine Videosequenz erstrecken, werden korrekt in einem längeren Video erkannt, wie etwa "die Hand, die dem Hund einen Ball gibt".

horse-jumps
Ein Pferd, welches hoch springt



Der neue Algorithmus verbessert vorhergehende ähnliche Methoden nochmals und demonstriert sehr anschaulich, welche komplexen Aufgaben durch die Kombination verschiedener Deep Learning Methoden inzwischen bewältigt werden können. In seinem jetzigen Zustand könnte die Methode zum Beispiel verwendet werden, um in einem Videoarchiv bestimmte Objekte zu finden und sie zu extrahieren. Ein kleiner weiterer Schritt würde zum Beispiel auch die Suche per natürlicher Spracheingabe ermöglichen, ein größerer weiterer Schritt könnte das Editieren von Objekten samt deren Austausch in einem Video per Spracheingabe ermöglichen.

Examples



Der Programmcode kann wie immer auch selbst ausprobiert werden - das entsprechende Vorwissen vorausgesetzt. Wer mehr zur Methode lernen will, kann die zugehörige Forschungsarbeit lesen.

Link mehr Informationen bei github.com

  
[noch keine Leserkommentare] [Kommentar schreiben]   

  Vorige News lesen Nächste News lesen 
bildCanon: Kamerakühlung per magnetischer Flüssigkeit? bildYoloLiv Instream: erstes vertikales Multikamera-Live-Streaming-Studio


verwandte Newsmeldungen:
KI:

Meta Emu KI-Bildgenerator - online kostenlos, jedoch aktuell nur in den USA 7.Dezember 2023
SDXL-Turbo - Neuer KI-Algorithmus beschleunigt Stable Diffusion extrem 6.Dezember 2023
PIKA 1.0 angekündigt - Generative KI-Videos mit erstaunlicher Qualität 29.November 2023
Der nächste Schritt ist da: KI trainiert KI (und braucht den Menschen nicht mehr) 28.November 2023
Insta360 Ace Pro - Action Cam mit 8K-Sensor, Leica Optik und viel KI 24.November 2023
Stable Video Diffusion - Freies KI-Diffusionsmodell zur Videoerzeugung vorgestellt 23.November 2023
Boris FX: Continuum bekommt KI-Funktionen - Denoiser und Upscaler 21.November 2023
alle Newsmeldungen zum Thema KI


[nach oben]

















passende Forenbeiträge zur News:

Archive

2023

Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2022
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 8.Dezember 2023 - 09:27
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*