Auf der Projektwebseite steht zwar noch "anonyme Autoren", jedoch stellt das arxiv.org/pdf/2402.03286.pdf (verlinkte PDF-Paper) klar, dass "ConsiStory" aus den Forschungseinrichtungen von Nvidia stammt. Dieses Projekt nimmt sich dabei dem Problem an, dass es oft schwer fällt, einen oder mehrere Charaktere über mehrere Bildgenerationen konsistent zu nutzen. So sieht ein "Alter Mann mit Hut" je nach den übrigen Prompt-Tokens meistens mit jedem Gernerierungsversuch signifikant anders aus. Dies versteht man unter dem aktuellen Konsistenz-Problem der Generativen KI.
Bisher begegnete man diesem Problem mit dem sogenannten Finetuning - das heißt, man "personalisierte" ein bereits trainiertes KI-Modell mit weiteren Bildern einer oder mehrerer spezieller Personen. Dies ist jedoch rechenaufwendig und erfordert zudem ein gewisses Know-How.
Mit ConsiStory soll es nun dagegen ohne zusätzliches Training möglich sein, innerhalb von Stable Diffusion XL (SDXL) konsistente Motive über eine Reihe von Bildern hinweg zu generieren. Die Forscher von Nvidia nutzen dafür ein ein neues Feature, welches sie "korrespondenzbasierte Feature-Injection" nennen. ConsiStory soll sich hiermit sogar auf Multi-Subject-Szenarien erweitern lassen und eine trainingsfreie Personalisierung für gängige Objekte ermöglichen.

// Top-News auf einen Blick:
- Sony A7R VI vorgestellt mit 66,8MP, Dual Gain und bis zu 120min 8K-Videoaufnahme
- Canon stellt EOS R6 V und RF 20-50mm F4 als PowerZoom-Kombination vor
- Panasonic Lumix L10 - Kompaktkamera mit GH7-Sensor und V-Log vorgestellt
- ZineControl - Monitoring und Fernsteuerung per App für die Nikon ZR
- Insta360 Luna Ultra mit dualer 8K-Kamera und abnehmbarem Display geleakt
- DJI Osmo Pocket 4P mit Dual-Kamera und 3x Zoom kommt am 14. Mai - nach Cannes
Der Qualität der bislang veröffentlichten Ergebnisse nach zu schließen, dürfte Nvidia hier ein kleiner Meilenstein in der generativen KI Forschung gelungen zu sein - denn Konsistenz bei Charakteren ist eines der großen Probleme, an denen aktuell viele praktische Einsatzszenarien für generative KI "hängen". Und natürlich auch einige eher ungewollte KI-Projekte, wie beispielsweise vollautomatisierte, virtuelle KI-Influencer.
Selbst nutzbarer Code zum Ausprobieren von ConsiStory soll "in Kürze" auf der Github-Projektseite für Interessierte als Link zur Verfügung gestellt werden.



















