[12:33 Fr,19.Mai 2023 [e] von Rudi Schmidts] |
Seit Monaten führen uns sogenannte Generative KI-Modelle (Generative Adversarial Networks, kurz GANs) vor Augen, dass Computer erstaunlich realistische Abbildungen der Welt um uns herum erzeugen können. Hierbei kommt jedoch kein Rendering im Sinne einer klassischen 3D-Repräsentation zum Einsatz.
Um ein KI-Bild zu erzeugen, müssen wir "nur" dessen Koordinaten in diesem Raum angeben. Und diese Koordinaten entsprechen - einfach gesagt- den Begriffen im zugehörigen Prompt. Schon bisher konnte man durch Prompting versuchen, sich auf diesen Dimensions-Achsen im Latent Space zu bewegen, um nur Kleinigkeiten im Output zu ändern. "Negative Prompting" macht sich diese Idee ebenfalls zunutze. Was jedoch bisher noch nicht funktioniert hat: Bildbereiche direkt durch die Maus zu bewegen. Man zieht also beispielsweise den Mundwinkel einfach durch Anfassen mit der Maus nach oben. Im Gegensatz zum einfachen Morphing, verändert sich bei "Drag your GAN" anschließend das gesamte Objekt passend hierzu. So können sich dadurch eventuell auch die Lippen etwas öffnen, Falten hinzukommen und/oder auch die Augen etwas schließen. Das Ganze funktioniert jedoch nicht mit einem herkömmlichen Foto. Aufgrund des notwendigen Latent Space kann die Manipulation nur mit einem von der KI hieraus generierten Bild erfolgen. Dafür sind anschließend die Manipulationsmöglichkeiten so einfach wie noch nie zuvor. Eine große Zahl an animierten Beispielen hält die Projektwebseite bereit. ![]() "Drag your GAN" stellt somit wohl den nächsten Meilenstein in der rasanten Entwicklung generativer KI-Modelle dar. Der entsprechende Code soll bereits im Juni zur Verfügung gestellt werden. ![]() |
![]() |