Auf der Projektwebseite steht zwar noch "anonyme Autoren", jedoch stellt das arxiv.org/pdf/2402.03286.pdf (verlinkte PDF-Paper) klar, dass "ConsiStory" aus den Forschungseinrichtungen von Nvidia stammt. Dieses Projekt nimmt sich dabei dem Problem an, dass es oft schwer fällt, einen oder mehrere Charaktere über mehrere Bildgenerationen konsistent zu nutzen. So sieht ein "Alter Mann mit Hut" je nach den übrigen Prompt-Tokens meistens mit jedem Gernerierungsversuch signifikant anders aus. Dies versteht man unter dem aktuellen Konsistenz-Problem der Generativen KI.
Bisher begegnete man diesem Problem mit dem sogenannten Finetuning - das heißt, man "personalisierte" ein bereits trainiertes KI-Modell mit weiteren Bildern einer oder mehrerer spezieller Personen. Dies ist jedoch rechenaufwendig und erfordert zudem ein gewisses Know-How.
Mit ConsiStory soll es nun dagegen ohne zusätzliches Training möglich sein, innerhalb von Stable Diffusion XL (SDXL) konsistente Motive über eine Reihe von Bildern hinweg zu generieren. Die Forscher von Nvidia nutzen dafür ein ein neues Feature, welches sie "korrespondenzbasierte Feature-Injection" nennen. ConsiStory soll sich hiermit sogar auf Multi-Subject-Szenarien erweitern lassen und eine trainingsfreie Personalisierung für gängige Objekte ermöglichen.

// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
Der Qualität der bislang veröffentlichten Ergebnisse nach zu schließen, dürfte Nvidia hier ein kleiner Meilenstein in der generativen KI Forschung gelungen zu sein - denn Konsistenz bei Charakteren ist eines der großen Probleme, an denen aktuell viele praktische Einsatzszenarien für generative KI "hängen". Und natürlich auch einige eher ungewollte KI-Projekte, wie beispielsweise vollautomatisierte, virtuelle KI-Influencer.
Selbst nutzbarer Code zum Ausprobieren von ConsiStory soll "in Kürze" auf der Github-Projektseite für Interessierte als Link zur Verfügung gestellt werden.