An sich ist eine Meldung wie jene, daß es ab jetzt aussagekräftigere Vorschaubilder für YouTube-Videos geben soll, keine große Schlagzeile wert -- auch wenn, wie Google betont, die Thumbnails das erste sind, was potentielle Zuschauer von den Clips sehen, und ein interessantes Startbild eher dazu animiert, auf den Playknopf zu klicken. Ebenso ist ja längst bekannt, daß Google auf neuronale Netze setzt, um besonders "intelligente", also lernfähige Automatisierungen zu implementieren; überhaupt basieren viele Lösungen im Bereich Objekterkennung und Maschinensehen auf solchen Lösungen.
Und trotzdem: wenn Google stolz bekannt gibt, einen neuen Thumbnailer entwickelt und diesem mithilfe von Deep neural networks (DNNs) beigebracht zu haben, was gute Vorschaubilder von schlechten unterscheidet, kann man in einer ruhigen Minute schon ein bißchen ins Grübeln kommen. Zunächst drängen sich Gedanken an Spatzen und Kanonen auf, denn soviel Mühe auf automatisch generierte Vorschauansichen zu legen, scheint angesichts der Tatsache, daß sich jeder per Hand ein passendes Frame aus seinem Video aussuchen kann, leicht übertrieben. Andererseits wird die große Masse aller Uploader dies natürlich nicht tun, und nachdem hochgeladene aber nicht abgespielte Videos für Google nutzlos sind, könnte sich der Schritt für den Konzern vielleicht tatsächlich lohnen.
Die Unterscheidung zwischen Gut und Böse Schlecht haben die neuronalen Netzwerke durch die Analyse von Vorschaubildern geübt, welche von Menschen ausgesucht wurden. Diese sind -- anders als zufällig ausgewählte Filmstills -- meistens scharf, sorgfältig kadriert und zeigen in der Regel vor allem eine Hauptfigur bzw. das Hauptmotiv des Films. Sollte es dem neuen Thumbnailer tatsächlich gelingen, in jedem Clip ein solches Bild zu identifizieren, wäre das an sich recht praktisch. Oder auch nicht, weil es bei schnellem Durchblättern schwerer wird, vermutlich sehenswerte Videos von schätzungsweise stümperhaft gemachten Aufnahmen zu unterscheiden, weil alles irgendwie gleich aussieht. Wir schlagen daher vor, die DNNs zusätzlich noch errechnen zu lassen, ob ein scharfes und wohlkomponiertes Vorschaubild überhaupt statistisch repräsentativ für die Machart eines jeweiligen Clips ist, und -- falls nicht -- ein Still von niedriger Qualität zu wählen. Wenn schon quantifizieren, dann richtig... mehr Informationen bei googleresearch.blogspot.it