Google bietet via Cloud Services eine ganze Reihe von AI (Artificial Intelligence) basierten Diensten an - für den Bereich Video besonders interessant ist eine neue, eben vorgestellte Funktion: die automatische Erkennung von Objekten in Videos via Deep Learning. Nachdem viele Objekte schon seit einiger Zeit in Standbildern mit relativ großer Wahrscheinlichkeit identifiziert werden können, war es ja nur eine Frage der Zeit, bis dies auch in bewegten Bildern gelingt.
Man kann online einige Demos ausprobieren, in welchen in beinahe Echtzeit sowohl Objekte als auch abstraktere Dinge wie Settings (Landschaft, Zoo, Natur) oder Gesichtsausdrücke, Verben, Logos oder Posen in laufenden Videos erkannt werden. Der Algorithmus gibt auch an, wie hoch die Wahrscheinlichkeit ist, daß ein Objekte korrekt identifiziert wurde.
Google bietet diese Video-Objekterkennung als cloudbasierten Service an, zum Beispiel um große Mengen an Videos zu verschlagworten bzw. nach bestimmten Objekten durchsuchbar zu machen. In jeder einzelnen Szene kann mit genauer Zeitangabe per Metadaten das Vorhandensein eines Objekts verzeichnet werden und so auch ganz bestimmte Szenen gefunden werden, in denen mehrere Objekte gleichzeitig vorhanden sind.
Große Medienunternehmen können mithilfe von Googles Video Intelligence API in Zukunft so beispielsweise große Mengen von Uservideos mit Schlagworten versehen und sie so Suchen zugänglich machen, die nicht mehr nur wie bisher auf dem Titel und von Usern eingegebenen Tags beruhen.
// Top-News auf einen Blick:
- Graphite - kostenloser Grafik-Editor von Photoshop bis Motion
 - Affinity Photo, Designer und Publisher ab sofort in einer kostenlosen App
 - DJI Neo 2 bringt Rundum-Hinderniserkennung samt LiDAR
 - Künftige Xbox Next: Vollwertiger Windows-PC mit Potenzial für Videobearbeitung
 - LG UltraFine 40U990A-W - 40 5K2K Monitor mit Thunderbolt 5
 

Auch für eine zukünftige Anwendung im Bereich professioneller Videobearbeitung könnte die Technik vielversprechend sein, denn durch die automatische Ergänzung von bildbeschreibenden Metadaten dürften sich Archive von selbstgedrehtem Videomaterial sinnvoll erschließen lassen und viel manuelle Arbeit sparen - zum Beispiel beim Schnitt von Dokumentarfilmen.
Das Ganze funktioniert mithilfe von Deep Learning Modellen -- mittels großer Mengen von Beispielbildern samt Schlagworten wurde die Mustererkennung so "trainiert", dass Gegenstände auch in anderen Videos als den bekannten wiedererkannt werden. Googles Objekterkennung kann so auch laufend durch neue Trainingsdaten und Änderungen am Algorithmus (bzw der Verschaltung der neuronalen Netze) verbessert werden.
Wer mehr über Deep Learning mittels Neuronaler Netzwerke wissen will, findet eine gute Erklärung im folgenden Artikel  Maschinenlernen macht künstliche Intelligenz praxistauglich und eine noch detaillierte über die  deren Funktionsweise.


















