Seit Monaten führen uns sogenannte Generative KI-Modelle (Generative Adversarial Networks, kurz GANs) vor Augen, dass Computer erstaunlich realistische Abbildungen der Welt um uns herum erzeugen können. Hierbei kommt jedoch kein Rendering im Sinne einer klassischen 3D-Repräsentation zum Einsatz.
Vielmehr werden Milliarden von Bildern in einem sogenannten Latent Space komprimiert abgelegt. Und zwar so, dass sie aufgrund ihrer Ähnlichkeit in verschiedenen Dimensionen nahe beieinanderliegen. Diese extrem vieldimensionale Speicherung lässt sich für Menschen schlecht vorstellen - obwohl oder wir in unseren Gehirnen vielleicht sogar unser Wissen mit ähnlichen Schemata "verwalten". So liegen beispielsweise alle lächelnden Personen in einer Dimensions-Achse nahe beieinander.
Um ein KI-Bild zu erzeugen, müssen wir "nur" dessen Koordinaten in diesem Raum angeben. Und diese Koordinaten entsprechen - einfach gesagt- den Begriffen im zugehörigen Prompt. Schon bisher konnte man durch Prompting versuchen, sich auf diesen Dimensions-Achsen im Latent Space zu bewegen, um nur Kleinigkeiten im Output zu ändern. "Negative Prompting" macht sich diese Idee ebenfalls zunutze.
// Top-News auf einen Blick:
- SanDisk stellt Extreme Fit vor: Aktuell kleinster 1TB USB-C-Speicherstick
- Apple plant OLED-MacBook Pro, Mac Studio M6 Ultra und Mini-LED Studio Display
- DJI Avata 360 - Leaks zeigen DJIs neue 360°-Drohne
- ARRIs Color KnowHow könnte Millionen Wert sein - als Workflow Lizenz für Dritte
- Canon EOS C50 im Praxistest: Kompaktes Arbeitstier mit 7K 50p Raw - die neue FX3 Konkurrenz
- Nikon ZR Lesertester gesucht! Nikon ZR zu gewinnen
Was jedoch bisher noch nicht funktioniert hat: Bildbereiche direkt durch die Maus zu bewegen. Man zieht also beispielsweise den Mundwinkel einfach durch Anfassen mit der Maus nach oben. Im Gegensatz zum einfachen Morphing, verändert sich bei "Drag your GAN" anschließend das gesamte Objekt passend hierzu. So können sich dadurch eventuell auch die Lippen etwas öffnen, Falten hinzukommen und/oder auch die Augen etwas schließen.
Das Ganze funktioniert jedoch nicht mit einem herkömmlichen Foto. Aufgrund des notwendigen Latent Space kann die Manipulation nur mit einem von der KI hieraus generierten Bild erfolgen. Dafür sind anschließend die Manipulationsmöglichkeiten so einfach wie noch nie zuvor. Eine große Zahl an animierten Beispielen hält die Projektwebseite bereit.

"Drag your GAN" stellt somit wohl den nächsten Meilenstein in der rasanten Entwicklung generativer KI-Modelle dar. Der entsprechende Code soll bereits im Juni zur Verfügung gestellt werden.


















