Vor kurzem wurde die Text-zu-Bild KI Stable Diffusion veröffentlicht, mit deren Hilfe man kostenlos auf dem eigenen Computer auch zuhause auf dem eigenen PC phantastische Bildern per Textinput selbst erzeugen kann (eine mittelstarke Grafikkarte vorausgesetzt). Viele User haben sich aber abschrecken lassen von der manuellen Installation per Commandline.
Stable Diffusion Installer für Windows und Linux
Jetzt aber hat jemand - wie schon erwartet - das ganze mittels eines Windows-, Linux- und auch eine Apple M1-Installers wesentlich vereinfacht, es reicht nurmehr ein Klick um das ganze Stable Diffusion Paket (Programm plus Model mit insgesamt 19 GB) auf dem eigenen PC oder Mac zu installieren. Der Computer sollte mit einer Grafikkarte mit mindestens 6 GB VRAM ausgestattet sein, sonst dauert der Rechenvorgang sehr lange (oder die Auflösung der standardmäßig 512x512 Pixel großen Bilder muss reduziert werden).
Zur Not können Bilder auch nur per CPU erzeugt werden, doch dann kann braucht man Geduld: die Generierung eines 512 x 512 Bildes kann dann zum Beispiel auf einem System mit einer Ryzen 5 2600 CPU mal gerne rund 19 Minuten dauern. Zum Vergleich: auf dem gleichen System dauert ein Bild bei Nutzung einer alten Nvidia GTX 1060 GPU mit 6GB VRAM nur 40 Sekunden.
Benutzeroberfläche per Browser
Bedient wird das ganze per Browser mittels einer einfachen graphischen Oberfläche, auf der nicht nur die Textprompts eingegeben und die resultierenden, durch die KI erzeugten Bilder angezeigt werden, sondern dank eines kleinen Helfers auch gleich verschiedene textliche Bildmodifikatoren ausgewählt werden können. Diese bestimmen den grundsätzlichen Stil des generierten Bildes und reichen dabei von einem realistischen Photo über Wasserfarben,- Tusche- oder Comiczeichnungen bis hin zu Nachahmungen des Stils berühmter Maler wie Rembrandt oder Picasso.
Ebenso beeinflusst werden kann das Ergebnis mittels der Vorgabe einer bestimmten Bildstimmung wie etwa melancholisch, traurig oder heiter und farbenfroh. Es läßt sich auch ein Startbild eingeben, welches dann anhand von Textprompts auf eine bestimmte Weise variiert werden soll. Im Menü für erweiterte Einstellungen kann man unter anderem die Größe des gewünschten Bildes einstellen, ob GPU oder CPU zur Berechnung genutzt werden sollen und bestimmen, wie viele Variationen erzeugt werden sollen.
Um Fehler zu vermeiden, sollte das "stable-diffusion-ui" Verzeichnis mit den Installationsdateien direkt unterhalb des Root-Verzeichnisses (also C: oder D:) angelegt werden. Nach dem Klicken der Installationsdatei wird dann der Download der eigentlichen Daten gestartet - bricht dieser vorzeitig ab, kann er mittels erneuten Klickens auf die Install-Datei einfach nochmal neu gestartet werden, um den Rest herunterzuladen.
Prompt Design: Gute Bilder durch gute Prompts
Etwas Übung erfordert allerdings die Kommunikation mit der KI - meist benötigt es eine Reihe von Anläufen, um zu einem gewünschten oder besonders schönen Ergebnis zu kommen. Es hilft beim sogenannten Prompt-Design - einer sich gerade entwickelnden, quasi eigenen Wissenschaft, für das es schon hilfreiche Anleitungen gibt - sich zunächst eine Reihe von Bildern anzusehen, die andere User generiert haben und deren Texteingaben zu studieren, um eine Ahnung zu bekommen von der Bandbreite der möglichen Inputs, die das Aussehen des resultierenden Bildes beeinflussen können, zum Beispiel hier oder hier.
Stable Díffusion schon mit GPU mit 2.86 GB VRAM
Vor wenigen Tagen ist auch ein Patch erschienen, der die VRAM-Anforderungen von Stable Diffusion nochmals optimiert hatte, und es ermöglicht 1280x576 oder 1024x704 große Bilder mit nur 8 GB VRAM zu erzeugen - klassische 512x512 Bilder benötigen mit dem Patch sogar nur noch 2,86 GB VRAM. Wir hoffen, daß auch die Windowsversion von Stable Diffusion bald um diesen Patch erweitert wird und so auf PCs mit noch weniger VRAM lauffähig wird(Danke an Hayos)