Wenn man die aktuelle Entwicklung der künstlichen Intelligenz aktiv verfolgt, bekommt man mittlerweile in den einschlägigen Reddit Gruppen beinahe täglich neue sensationelle Modelle zu Gesicht - die einen meist neidisch staunend zurücklassen.
Atemberaubende Entwicklungen
"Zurücklassen" im wahrsten Sinne des Wortes, denn wenn man diese Modelle nicht selber mit der Kommandozeile steuern will oder kann, muss man warten, bis sie für jedermann nutzbar gemacht werden. Sei es durch ein Webinterface oder durch die Veröffentlichung als eigenständiges Programm.

Doch warum dauert es immer so lange, bis man die sensationellen Beispiele aus einem wissenschaftlichen Paper auch in Premiere, Final Cut Pro oder Resolve benutzen kann? Und das, obwohl Firmen wie Adobe oder Apple bei der KI-Forschung doch in der Regel ganz vorne mitspielen.
Die Sahnehäubchen
Grundsätzlich sieht man in den wissenschaftlichen Aufsätzen (den sogenannten "Papers") immer nur die Sahnehäubchen, denn bei jeder neuen KI-Entwicklung präsentieren die Erfinder in der Regel nur die besonders gelungenen Fälle. Wer selber beispielsweise mit Stable Diffusion bereits erste Schritte gewagt hat, weiß dass die Formulierung eines passenden Prompts Stunden oder sogar Tage beanspruchen kann. Was wir im Netz zu sehen bekommen sind dagegen nur die allerbesten Ergebnisse - nach hunderttausend verworfenen Prompt-Versuchen in der Community.
Wenn Adobe nun aber ein aktuelles Inpainting-Modell implementieren würde, das nur in einem von hundert Fällen ein visuell schlüssiges Ergebnis hervorbringt, wäre diese Funktion für Anwender in der Praxis kaum nutzbar.
Reproduzierbarkeit und Konsistenz
Zudem sollen, bzw. müssen Filter und Effekte reproduzierbar funktionieren. Wenn ein neuer Filter beispielsweise in Resolve Einzug erhält, sollte sich dieser deterministisch (also berechenbar) verhalten - also bei gleichem Input immer das gleiche Ergebnis erzeugen.
Wenn der Filter dagegen bei jedem Aufruf ein anderes Ergebnis ausspuckt, kann man ihn in einer Komposition nicht risikolos einsetzen. Schließlich soll das Bild sich nicht unkontrolliert ändern. Grundsätzlich kann man ein statisches Verhalten auch mit KI-Effekten erzielen (indem man alle Netz-Parameter nicht verändert und nicht mit zufälligen Seeds arbeitet). Aber dann darf der Entwickler die internen Gewichte auch nicht mehr in späteren Programmversionen ändern. Sonst könnte es passieren, dass beispielsweise ein wegradiertes Objekt in einer späteren Version wieder auftaucht - wenn man ein altes Projekt öffnet, das mit einem Filter der Vorversion erstellt wurde.
Aus diesen Gründen übernehmen Firmen wie Adobe, Apple oder Blackmagic nur besonders gründlich ausgetestete KI-Modelle in ihre Programme. Und bis ein Modell mit vielen Motiven hinreichend gut funktioniert, dauert dessen Optimierung in der Regel weitaus länger, als die "wissenschaftlichen Netze" aus den Papers, die meist nur den "Best Case" präsentieren.
Genau solche Probleme machen uns gerade auch die redaktionelle Arbeit mit den heißesten KI-Tools schwer. "Testet doch mal die Filter in Runway!", klingt zwar nach einem interessanten Artikel, ist aber kaum objektiv zu bewerkstelligen. Denn ob und wie gut der Inpainting Algorithmus oder die automatische Objektmaskierung funktionieren, ist extrem stark vom Motiv abhängig. Was mit einer Aufnahme vielleicht problemlos klappt, kann mit einer anderen komplett in die Hose gehen.

Tatsächlich kommt man beispielsweise mit dem Freistellungstools von Runway im Browser oftmals schnell zu brauchbaren Ergebnissen. Aber dann kann es gelegentlich einzelne Frames geben, in denen die Kante sich irrational verhält. Anschließend mit diesen einzelnen Frames zu kämpfen, kostet wieder unverhältnismäßig viel Zeit - wenn man hierfür nicht sogar zu anderen Tools greifen muss.
Schrödingers KI-Filter
Und genau diese nicht hundertprozentige Zuverlässigkeit ist es, die nicht nur selbstfahrende Autos verzögert, sondern auch den produktiven Einsatz in den bekannten Tools verhindert. Es gibt immer noch Fälle, in denen die KI nicht wie vorgesehen reagiert. Und man weiß nicht vorher, ob das eigene Material solche Fälle provoziert, oder nicht. Ob ein KI-Filter wirklich zuverlässig funktioniert, weiß man immer erst, wenn man ihn mit dem eigenen Material ausprobiert hat.
Doch wer nun deswegen desillusioniert in die Video-KI-Zukunft schaut, ist auch auf dem falschen Dampfer. Denn auch wenn man es durch den schleichenden Einzug vielleicht nicht wahrgenommen hat. KI ist bereits da und steht uns bereits ziemlich zuverlässig in zahlreichen Funktionen in diversen kommerziellen Applikationen zur Verfügung.
KI ist schon da
Video AI von Topaz Labs entrauscht, deinterlaced oder skaliert bereits in einer Art, die vor zwei Jahren noch undenkbar war. Color Lab AI übernimmt gerade für Anfänger die Farbabstimmung eines durchgehenden Looks. Adobe bietet schon heute inhaltsabhängige Füllung, einen Rotobrush, eine automatische Szenenerkennung sowie Remix, um Audiotracks nur durch Ziehen in der Länge anzupassen. Und die neuronale Engine in DaVinci Resolve stellt uns Werkzeuge wie die magische Maske, automatische Gesichter-Optimierung oder die Erzeugung synthetischer Z-Puffer via Depth Map bereit.
All die genannten KI-Tools laufen schon heute ziemlich zuverlässig und sind für den täglichen Einsatz "bereit". Und es ist nur eine Frage der Zeit, dass diese noch weiter vereinfacht und optimiert werden.
Gleichzeitig ist die Büchse der Pandora geöffnet und bei allen Unternehmen läuft die Entwicklung und Integration von weiteren, aufregenden KI-Modellen auf Hochtouren. Es braucht einfach nur etwas mehr Zeit, diese auch für die breite Masse an Anwendungsfällen zuverlässig zu optimieren.