Eine Bildgenerierung in unter einer Sekunde? Nvidias neue Bild-KI Sana kann genau das: auf einer Laptop-GPU mit 16 GB VRAM braucht ein Bild in 1.024 x 1.024 Auflösung weniger als eine Sekunde zur Generierung. Nvidia hat sogar den Quellcode von Sana unter der freien Apache 2.0 Lizenz veröffentlicht, d. h. User können – eine leistungstarke Grafikkarte vorausgesetzt – die Schnelligkeit von Sana auch selbst am eigenen Computer nutzen und so quasi kostenlos Bilder generieren.

Sana Geschwindigkeit
Nvidia hat die Schnelligkeit von Sana unter anderem mit FLUX.1 (Flux) verglichen, der aktuell besten und beliebtesten freien Bild-KI, die auch lokal betrieben werden kann. Sana (Version 0.6B) ist laut der Benchmarks 20x kleiner und rund 100x schneller bei der Generierung von Bildern in höherer Auflösung (4.096 x 4.096) bzw. 25x schneller bei 1.024 x 1.024 Bildern als das "FLUX.1-12B-Dev" Modell, welches für nicht-kommerzielle Anwendungen offen ist und eine höhere Qualität als das kleinere und schnellere "FLUX.1-schnell" aufweist. Der Geschwindigkeitsvorteil gegenüber dem schnellen FLUX-Modell beträgt allerdings nur noch das zweifache.

Wie auch bei anderen Bild-KIs ist das höherauflösende Bild eine per KI (in diesem Fall SUPIR) hochskalierte Version eines ursprünglich in 1.024 x 1.024 generierten Bildes. Das Sana-Team hat auch ein Plugin für die Integration mit ComfyUI entwickelt.
Leider gibt es noch keinen unabhängigen Benchmark, der die Bildqualität von Sana im Vergleich zu den führenden Modellen misst – man ist also ganz auf sein eigenes Urteil und Versuche angewiesen, auch was die Promptinterpretation und Kohärenz betrifft. Sana scheint – im Gegensatz zu den besten aktuellen Bild-KIs – noch die altbekannten Probleme mit menschlichen Gliedmaßen und der Darstellung von Text zu haben. Hier ein Vergleich mit Midjourney:

Let&s compare Midjourney with NVidia&s new open-source Sana model, which boasts impressive generation speeds of 7 seconds and a maximum output resolution of 4096x4096. Currently, it supports T2V.
— John Meta (@JohnMeta8) January 15, 2025
Left Midjourney, right Sana, same prompt.
More below ---> pic.twitter.com/RVRzvq8Apw
Man kann Sana (1.6B) hier kostenlos ausprobieren – die Erzeugung eines 4K-Bilds per Nvidia GTX 3090 dauert hier nur rund 7 Sekunden. Der Sourcecode ist auf GitHub verfügbar, das Paper hier.