Videomasken einfach per Beschreibung definieren durch neuen KI-Algorithmus

// 13:21 Mi, 1. Dez 2021von Thomas Richter

Dieser neue Deep Learning Algorithmus ( End-to-End Referring Video Object Segmentation with Multimodal Transformers ) eines Teams aus Israel macht etwas für den Videoschnitt sehr interessantes: aufgrund einer simplen Beschreibung eines Objekts in Form eines kurzen Satzes erkennt er das Objekt in einem Video und stellt es per dynamischer Maske frei.

Dabei kann die Beschreibung des gewünschten Objekts recht komplex sein und es auch durch dynamische Beziehungen zu anderen Objekten beschreiben oder seine Lage im Raum, wie etwa "ein Mann in einem weißen T-Shirt und blauen Hosen, der ein Surfbrett reitet", "ein großer Affe, der mit einem Affenbaby spielt", "das Zebra hinten rechts, welches hinter einem anderen steht, das nach links schaut" oder "eine Person auf einem Motorrad".

Der KI-Algorithmus erledigt dazu eine ganze Reihe komplexer Aufgaben aus den Bereichen Text- und Videoverständnis: erst muss er den eingegebenen Text "verstehen", dann alle Objekte in einem Video samt dynamischer Beziehungen korrekt erkennen und aufgrund der vom User gegebenen Beschreibung das korrekte Objekt identifizieren (samt seiner Eigenschaften, wie etwa der Farbe und Beziehungen zu einem anderen Objekt wie etwa "der Tennisschläger in der Hand des Spielers mit dem roten Hemd").

Dann muss das Objekt vom Hintergrund getrennt und über alle Frames, in denen es auftaucht, verfolgt und daraus eine dynamische Maske gebildet werden - auch wenn das Objekt sein Aussehen durch Bewegungen und Perspektivwechsel verändert. Die Maske muss idealerweise nicht mehr per Hand nachträglich angepasst werden. Sogar dynamische Handlungen, die sich über eine Videosequenz erstrecken, werden korrekt in einem längeren Video erkannt, wie etwa "die Hand, die dem Hund einen Ball gibt".

Der neue Algorithmus demonstriert sehr anschaulich, welche komplexen Aufgaben durch die Kombination verschiedener Deep Learning Methoden inzwischen bewältigt werden können. In seinem jetzigen Zustand könnte die Methode schon verwendet werden, um in einem Videoarchiv bestimmte Objekte samt ihrer Beziehung zu anderen Objekten zu finden und sie zu extrahieren. Ein kleiner weiterer Schritt würde zum Beispiel auch die Suche per natürlicher Spracheingabe ermöglichen, ein größerer weiterer Schritt könnte das Editieren von Objekten samt deren Austausch in einem Video per Spracheingabe ermöglichen.

Der entsprechende Porgrammcode kann wie immer auch selbst ausprobiert werden - das entsprechende Vorwissen vorausgesetzt.

mehr Infos bei
github.com

Auf Socials teilen:

Leserkommentare // Neueste

lensoperator // 19:16 am 1.12.2021

Vor allem wird die AI um ein vielfaches genauer sein. Merke ich jetzt schon an AfterFx. Der AI Masken Modus setzt einfach 400 Punkte an eine Kurve. Wärend man beim Rotoskopieren...weiterlesen

medienonkel // 18:04 am 1.12.2021

Die Masken in Zukunft dann nicht als fertigen Alpha, sondern als splines zum einfacheren korrigieren... Rotoskopieren kann als kreuzworträtsel Ersatz ja ganz angenehm sein. Aber...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Bewegte Objekte in Videos können dank neuer KI nur per Beschreibung maskiert werden

Bewegte Objekte in Videos zu maskieren, um sie getrennt von allen anderen Inhalten zu bearbeiten, war früher eine extrem zeitaufwändige Arbeit. Inzwischen wurde sie dank neuer ...

// 16:02 Di, 23. Aug 2022von Thomas Richter

News

GPT-4 kommt schon schon nächste Woche: KI für Text, Bild- und Video

Heise hatte bereits am Donnerstag als erster darüber berichtet, dass bei der Microsoft-Veranstaltung "KI im Fokus – Digitaler Kickoff" fast beiläufig erwähnt wurde, dass GPT-4 ...

// 11:03 Sa, 11. Mär 2023von Rudi Schmidts

News

DeepFake Video als Kriegspropaganda - vermeintliche Kapitulation von Zelensky

Es hat eigentlich erstaunlich lange gedauert, aber vorgestern war es soweit: der erste, in einer großen weltpolitischen Krise gezielt instrumentell eingesetzte DeepFake ist ...

// 09:38 Fr, 18. Mär 2022von Thomas Richter

News

Neuer Snapdragon 8 Gen 3 ermöglicht KI-Funktionen direkt auf dem Smartphone

Mit dem neuesten Snapdragon 8 Gen 3 System-on-a-Chip bringt Qualcomm KI-Funktionen direkt in Smartphones - viele davon sind für Foto und Video relevant. Entsprechende ...

// 15:21 Do, 26. Okt 2023von blip

News

Frische KI-Audio Modelle selbst ausprobieren - Deep Learning Tools for Audacity

Ein paar DeepLearnig Experten haben eine -in unseren Augen- extrem gute Idee ausgefuchst und kostenlos über GitHub bereitgestellt. Die "Deep Learning Tools for Audacity" sind ein ....

// 10:27 Sa, 30. Okt 2021von Rudi Schmidts

zur Newsübersicht >

Unterstützung für mehr Handys Kostenlose Blackmagic Camera App 1.1 für Android bringt viele neue Funktionen

Vor rund einem Monat hatte Blackmagic seine kostenlose Camera App auch für Android veröffentlicht, jetzt ist bereits das erste Update erschienen, das zahlreiche neue Funktionen ...

// 14:17 Mo, 22. Jul 2024von Thomas Richter

News

Nicht nur 3D Animation Blender 4.2 LTS - kostenloses 3D-Softwarepaket jetzt mit GPU-Compositor

Das quelloffene 3D-Modelling- und Animations-Paket Blender wächst weiter. In der neuen Version 4.2 LTS sind sogar ziemlich relevante Verbesserungen für die Videobearbeitung ...

// 11:50 Sa, 20. Jul 2024von Rudi Schmidts

News

6K bzw. 8K 60p RAW Video Canon EOS R1 und R5 Mark II vorgestellt mit DIGIC Accelerator und mehr

Gleich zwei neue Spitzenmodelle für sein EOS R-System präsentiert Canon heute - die EOS R1 und EOS R5 Mark II bringen beide verbesserte Autofokus-Fähigkeiten sowie eine erweiterte ...

// 12:05 Mi, 17. Jul 2024von blip

News

APS-C Wechselobjektivkamera Kompakte Sony ZV-E10 II mit 10bit 4K 60p und Kinolook-Funktionen angekündigt

Sony verbessert seine kleine "Vlogging"-Kamera ZV-E10 - so verfügt die neue Generation II (wie im Vorfeld gemunkelt) über einen neuen Sensor, Dank welchem nun 4K-Videoaufnahmen ...

// 17:23 Mi, 10. Jul 2024von blip

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Wissen

Grundwissen KI Künstliche Intelligenz einfach erklärt - Perzeptron, Backpropagation und Loss

Generative KI-Modelle wie Midjourney, Runway oder Stable Diffusion werden immer leichter für jedermann zu bedienen. Dennoch verstehen die wenigsten Anwender was hinter den ...

// 12:18 Fr, 4. Aug 2023von Rudi Schmidts

Wissen

Wie filmt man am besten für eine Computational Postproduction?

Wer für seine Aufnahmen in der Nachbearbeitung maximalen Bildverbesserungs-Spielraum erhalten will, sollte die folgenden Tipps im Auge behalten...

// 10:27 Di, 31. Jan 2023von Rudi Schmidts

zur Artikelübersicht >

Aktuelle News //

News

Geleakte Liste Runway Gen-3 Video-KI wurde an tausenden, ausgesuchten YouTube-Videos trainiert

KI-Videomodelle werden zunehmend besser, die Qualität ihres Outputs hängt bekanntlich jedoch stark von dem Videomaterial ab, anhand dessen sie lernen, wie Videos auszusehen haben. ...

// 17:13 Fr, 26. Jul 2024von blip

News

Mit besseren Kameras? Neue Drohnen im Anflug: Erst DJI Air 3S, dann Mavic 4?

Schon seit Mai kursieren Gerüchte über ein neues Drohnenmodell von DJI: zunächst drehten sich die Leaks der bekannten Accounts @OsitaLV und @Quadro_News um vereinzelte Abbildungen ...

// 19:14 Do, 25. Jul 2024von Thomas Richter

zur Newsübersicht >