Wir haben ja schon über die Bilder-KI DALLE-2 und ihre erstaunliche Fähigkeit, beeindruckende Bilder nur per Text-Prompt zu generieren berichtet. Der Photograph Nicholas Sherlock hat allerdings sein Augenmerk auf eine weiteres interessantes Einsatzgebiet gerichtet, nämlich als Assistent für die intelligente Bearbeitung von Photos.
Schon jetzt gibt es ja eine ganze Reihe von KI-basierte Tools bzw. Plugins zur Bildbearbeitung, diese sind aber alle nur auf eine bestimmte Aufgabe spezialisiert, wie zum Beispiel die Schärfung des Bildes. Im Gegensatz dazu besticht DALLE-2 durch seine sehr umfassenden Möglichkeiten "intelligenter" Bildmanipulation.
Sherlock nutzt einige spezielle Fähigkeiten von DALLE-2, die bisher eher im Schatten der Bildgenerierung standen. DALLE-2 kann nämlich auch mit einem Bild oder Photo als Input gefüttert werden, welches dann gezielt geändert werden kann. Und auch hier erfolgen die Änderungen am Bild nur durch eine Anweisung per Text, die beschreibt, was genau am Bild geändert werden soll.
So können mithilfe der KI ebenso gezielt Objekte in einem Photo ausgetauscht, als auch bestimmte Bildcharakteristika geändert werden, oder fehlende Bildbereiche sinnvoll durch die KI "ergänzt" werden.
In-Painting
Per sogenanntem "In-Painting" können manuell Objekte/Bereiche im Bild grob markiert werden, die dann durch ein anderes, per Textbeschreibung durch DALLE-2 generiertes Objekt ersetzt werden können, wie auf den folgende Beispielen zu sehen ist.
Oder ein Objekt kann einfach nachträglich geschärft werden:
Das umfassende, durch Training anhand von Millionen von Bildern erworbene "Wissen" von DALLE-2 um Bildzusammenhänge sowie die Physik von Objekten im dreidimensionalen Raum sorgt sowohl für eine korrekte Perspektive als auch Größe und Belichtung, um das neue Objekt nahtlos ins Bild einzufügen. Sogar Texturen, Schatten und Reflektionen durch das neue Objekt werden mitberechnet wie im folgenden Beispiel gut zu sehen ist.
Die nächste Stufe wäre ein objektbasiertes Editing, bei welchem auch die Auswahl der zu ändernden Bildbestandteile und die gewünschte Aktion per Beschreibung funktioniert, also z.B. "ersetze die Katze durch einen flauschigen Hund" oder "die Sonne soll tiefer stehen, Goldene Stunde".
Simulation spezifischer Optiken, Blenden und Verschlusszeiten
DALL-E 2 hat auch die unterschiedlichen Charakteristiken verschiedener Optiken gelernt, hier schön demonstriert an einigen Beispielen für generierte photorealistische Bilder, die je nach genanntem Objektiv (zum Beispiel Sigma 85 mm f/1.4, Voigtländer 20 mm f3.5 und Sigma 24 mm f/8) spezifisch unterschiedlich aussehen - sogar die Angabe der zu verwendenden Verschlusszeit oder der Blende ändert die Bilder auf typische Art und Weise. Ähnliches sollte auch per Editing von vorgegebenen Photos funktionieren.
Sigma 24mm f/8
Sigma 85mm f/8
Out-Painting
Weitere Möglichkeiten der Photobearbeitung liefert das "Out-Painting" (auch "Uncropping" genannt) - damit können Bilder kontextuell sinnvoll von DALLE-2 um Bildbereiche ergänzt werden. Damit lassen sich auch aus berühmten Gemälden ganze Panoramen erzeugen (hier weitere Out-Painting-Beispiele ):
User von DALL-E 2 experimentieren auch schon mit der Möglichkeit, Objekte im Bild gezielt zu verändern, um sie z.B. aus einem anderen Winkel zu zeigen oder um visuell ansprechendere Variationen eines eigenen Photos zu generieren:
KI: Die Zukunft des Photo- und Videoeditings?
DALLE-2 fungiert so als quasi intelligenter Photoediting-Assistent, der eigentlich komplexe und langwierige Änderungen an einem Photo per Befehl ganz einfach erledigt. Natürlich wird es noch etwas dauern bis diese Technik des objektbasierten Photoeditings für normale Anwender in ausreichend guter Qualität verfügbar ist, dass sie aber kommt, daran gibt es keinen Zweifel. Schwer absehbar sind allerdings die Folgen - wird KI den Job von Photographen erleichtern oder (in vielen Fällen) überflüssig machen, wenn einfach massenhaft Bilder ganz nach Wunsch generiert werden können?
Der Photograph Micael Widell jedenfalls sieht durch DALLE-2 /und andere Entwicklungen) die Zukunft der Photographie in Frage gestellt (ab 2:40):
Die Erfahrung zeigt auch, dass Entwicklungen in Sachen Bildbearbeitung im Photobereich auch bald darauf in der Videobearbeitung ankommen - die Manipulation von temporalen Bilderserien erfordert neben Änderungen der Struktur eines neuronalen Netzes einfach nur mehr Prozessor- (bzw. GPU-)Power. Videobearbeitung mit Hilfe von KI könnte zumindest viele Workflows - wie zum Beispiel im Color Grading - stark vereinfachen und per objektbasiertem Editing auch viele Aufgaben im Compositing erleichtern. Die Entwicklung wird also beim intelligenten KI-Assistenten sicherlich nicht stehenbleiben und dürfte auch vor dem kreativen Aspekt vieler Jobs nicht halt machen - man darf also gespannt sein auf die weitere Entwicklung.