Google bietet via Cloud Services eine ganze Reihe von AI (Artificial Intelligence) basierten Diensten an - für den Bereich Video besonders interessant ist eine neue, eben vorgestellte Funktion: die automatische Erkennung von Objekten in Videos via Deep Learning. Nachdem viele Objekte schon seit einiger Zeit in Standbildern mit relativ großer Wahrscheinlichkeit identifiziert werden können, war es ja nur eine Frage der Zeit, bis dies auch in bewegten Bildern gelingt.
Man kann online einige Demos ausprobieren, in welchen in beinahe Echtzeit sowohl Objekte als auch abstraktere Dinge wie Settings (Landschaft, Zoo, Natur) oder Gesichtsausdrücke, Verben, Logos oder Posen in laufenden Videos erkannt werden. Der Algorithmus gibt auch an, wie hoch die Wahrscheinlichkeit ist, daß ein Objekte korrekt identifiziert wurde.
Google bietet diese Video-Objekterkennung als cloudbasierten Service an, zum Beispiel um große Mengen an Videos zu verschlagworten bzw. nach bestimmten Objekten durchsuchbar zu machen. In jeder einzelnen Szene kann mit genauer Zeitangabe per Metadaten das Vorhandensein eines Objekts verzeichnet werden und so auch ganz bestimmte Szenen gefunden werden, in denen mehrere Objekte gleichzeitig vorhanden sind.
Große Medienunternehmen können mithilfe von Googles Video Intelligence API in Zukunft so beispielsweise große Mengen von Uservideos mit Schlagworten versehen und sie so Suchen zugänglich machen, die nicht mehr nur wie bisher auf dem Titel und von Usern eingegebenen Tags beruhen.
// Top-News auf einen Blick:
- Fujifilm GFX Eterna 55 erklärt: Aufnahmeformate, Großformat-Open-Gate, Fujinon 32-90
- Neue Vocas Matte Box MB-260 - kompakt und frei konfigurierbar
- Die Canon EOS C50 erklärt - 7K RAW, 120p 4K und Open Gate
- Blackmagic Camera App 3.0 für Android und iOS bringt viele Neuerungen
- Blackmagic DaVinci Resolve 20.2 bringt neben Apple ProRes RAW u.a. ...
- Nikon ZR in der Praxis: 6K 50p RED RAW Monster für 2.349,- Euro mit klassenbester Colorscience?

Auch für eine zukünftige Anwendung im Bereich professioneller Videobearbeitung könnte die Technik vielversprechend sein, denn durch die automatische Ergänzung von bildbeschreibenden Metadaten dürften sich Archive von selbstgedrehtem Videomaterial sinnvoll erschließen lassen und viel manuelle Arbeit sparen - zum Beispiel beim Schnitt von Dokumentarfilmen.
Das Ganze funktioniert mithilfe von Deep Learning Modellen -- mittels großer Mengen von Beispielbildern samt Schlagworten wurde die Mustererkennung so "trainiert", dass Gegenstände auch in anderen Videos als den bekannten wiedererkannt werden. Googles Objekterkennung kann so auch laufend durch neue Trainingsdaten und Änderungen am Algorithmus (bzw der Verschaltung der neuronalen Netze) verbessert werden.
Wer mehr über Deep Learning mittels Neuronaler Netzwerke wissen will, findet eine gute Erklärung im folgenden Artikel Maschinenlernen macht künstliche Intelligenz praxistauglich und eine noch detaillierte über die deren Funktionsweise.