Noch was unklar? Dann in unserem Forum nachfragen
Zum Original-Thread / Zum KI-Forum

Infoseite // Kostenlose Bildgenerierung per KI: Stable Diffusion jetzt mit einfachem Windows Installer

Newsmeldung von slashCAM:

Vor kurzem wurde die Text-zu-Bild KI Stable Diffusion veröffentlicht, mit deren Hilfe man kostenlos auf dem eigenen Computer auch zuhause auf dem eigenen PC phantastisch...

Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Kostenlose Bildgenerierung per KI: Stable Diffusion jetzt mit einfachem Windows Installer

Antwort von Hayos:

Sehr schön, bin mal auf den neuen Patch gespannt :) Und natürlich auf die ganzen In-Paint-Sachen die da in Arbeit sind für Photoshop und Krita...

Falls es jemanden interessiert, hier mal meine Renderzeiten mit einer alten GTX970 4GB VRAM (eigentlich 3,5GB)

768x512 px = 1:40 Minuten
512x768 px = 1:40 Minuten
512x512 px = 1:00 Minute
768x768 px = 3:40 Minuten

Höhere Auflösungen verweigert er.

Ich nehme meist die ersten beiden Auflösungen, die Renderzeit ist noch im Rahmen und die KI-Bildqualität (also nicht nur die reine Pixelzahl) ist wesentlich(!) höher, als bei den Standard-512x512 px.

Antwort von medienonkel:

Wieviele iterations/second hast du?

Der interne 4fach scaler und die Gesichts Korrektur bringen auch einiges.
Jedoch bin ich zu blöd ordentliche prompts zu erstellen :-)

Antwort von freezer:

Bei 50 iteration steps und 512x512 braucht meine NVIDA RTX A6000 rund 5 Sekunden. Bei 1024x576 sind's schon 17 Sekunden.
Und bei 1024x1024 macht mir Stable Diffusion bereits die 48GB Ram der Grafikkarte voll.

Antwort von Darth Schneider:

@Cantsin
Du hast sicher recht.
Aber auf der anderen Seite…
Nun ja am, wer die App zum professionell schneiden braucht um seine Brötchen zu verdienen und nicht wenigstens zum gratis Resolve greift ist eh selber schuld. ;)
Gruss Boris

Antwort von freezer:

medienonkel hat geschrieben:
Wieviele iterations/second hast du?

Der interne 4fach scaler und die Gesichts Korrektur bringen auch einiges.
Jedoch bin ich zu blöd ordentliche prompts zu erstellen :-) Ja, ist nicht einfach und man muss probieren, probieren, probieren.
Wichtig ist dabei, den Seed gleich zu lassen, sonst gibt es beim Herumprobieren immer ständig völlig andere Ergebnisse.

Hier, gerade nach etlichen Versuchen geschafft:
"an extremely huge fish halfway below waterline carrying a small island with an shining extremely tall lighthouse on top of the fish's back, photography, cinematic lighting"
1024 x 576 px 150 steps
Seed: 1203228410 00002-150_k_lms_1203228410_0.00.png "AI as king on an electronic throne, computer kneeling, photography, cinematic lighting, luminescence, octane render, hdr" 00000-50_k_lms_3156042306_0.00.png "Anthropomorphic corona virus docking onto a human cell, photography, cinematic lighting, luminescence, octane render, hdr" 00000-50_k_lms_3156042306_0.00.png

Antwort von freezer:

"human blood cells fighting against Anthropomorphic beautiful floating glass virus knights with tentacles and one eye, intricate filigree metal design, killed by blue high energy laser rays, explosion, magical plants, stone arch, photography, cinematic lighting, intricate details, extremely detailed volumetric rays, octane render, hdr"
00000-50_k_lms_3156042306_0.00.png "spaghettification of a human Black Hole, quarks, portrait, photography, photorealism, sunlight, soft light, soft shadows, octane render, unreal engine, hyper detailed, volumetric lighting, hdr, octane render, fantasy, 4k, 8K"
00003-140_k_lms_1959911663_0.00.png "John Oliver, portrait, elaborate stained glass windows with night theme, photography, photorealism, sunlight, soft light, soft shadows, octane render, unreal engine, hyper detailed, volumetric lighting, hdr, octane render, fantasy, 4k, 8K"
00000-140_k_lms_2613035656_0.00.png "Maximus horse, portrait, elaborate stained glass windows with night theme, cyberpunk, photography, photorealism, sunlight, soft light, soft shadows, Bioluminescence, octane render, unreal engine, hyper detailed, volumetric lighting, hdr, octane render, fantasy, 4k, 8K" 00000-140_k_lms_1090364067_0.00.png "Skeletor, portrait, oil painting, leonardo da vinci style" 00000-140_k_lms_3389641867_0.00.png

Antwort von medienonkel:

Merci!

Also mit so ner fetten GPU kann ich leider nicht dienen ;-)
Leider lassen sich die Ergebnisse scheinbar nicht von einem Rechner auf den anderen übertragen.
Exakt die gleichen Settings inkl. seed bringen bei mir mit dem prompt:
"an extremely huge fish halfway below waterline carrying a small island with an shining extremely tall lighthouse on top of the fish's back, photography, cinematic lighting"
das Ergebnis an_extremely_huge_fish_halfway_below_waterline_car_a88223f6_GFPGANv1.3_RealESRGAN_x4plus.jpg Hat 01:53 gebraucht. GPU Speicher war bei 5 GB.

Antwort von freezer:

medienonkel hat geschrieben:
Merci!

Also mit so ner fetten GPU kann ich leider nicht dienen ;-)
Leider lassen sich die Ergebnisse scheinbar nicht von einem Rechner auf den anderen übertragen.
Exakt die gleichen Settings inkl. seed bringen bei mir mit dem prompt:
"an extremely huge fish halfway below waterline carrying a small island with an shining extremely tall lighthouse on top of the fish's back, photography, cinematic lighting"
das Ergebnis
an_extremely_huge_fish_halfway_below_waterline_car_a88223f6_GFPGANv1.3_RealESRGAN_x4plus.jpg

Hat 01:53 gebraucht. GPU Speicher war bei 5 GB. Es gibt noch andere Einflussfaktoren:
cfg_scale: 7.5
und das verwendete Diffusion Modell:
stable-diffusion-v1-4 statt stable-diffusion-v-1-4-original

Antwort von freezer:

"spaghettification of a human being , photography, cinematic lighting, hdr" 00001-250_k_lms_1203228410_0.00.png

Antwort von medienonkel:

Dachte ich mir schon, dass es vielleicht unterschiedliche Modelle sein könnten.

Ich hab auch die beta option aktiviert. Ich glaub, der "installer" zieht sich auch jedesmal die aktuellste Version.
Zumindest kann man damit sehr gut Zeit verplempern ;-)

Antwort von medienonkel:

highly detailed photograph of a medieval castle under siege from the 11th century, heavy rain and thunderstorm, harsh lighting, 4k, 8k
Width: 1280
Height: 768
Seed: 856323
Steps: 50
Guidance Scale: 7.5
Prompt Strength: 0.8
Use Face Correction: GFPGANv1.3
Use Upscaling: RealESRGAN_x4plus highly_detailed_photograph_of_a_medieval_castle_un_4aae9c72_GFPGANv1.3_RealESRGAN_x4plus.jpg

Antwort von freezer:

Besieging army of knights in front of a highly detailed photograph of a medieval castle from the 11th century, a rain of arrows coming from towers, heavy rain and thunderstorm, harsh lighting, 4k, 8k
1024 x 512
CFG scale 7.5
Seed 856323
00001-250_k_lms_856323_0.00.png

Antwort von freezer:

Modifiziert:

besieging nordic warriors in front of a medieval castle from the 11th century, cloud of burning arrows raining down from towers, heavy rain and thunderstorm, lightning strikes, dramatic harsh lighting, masterpiece, sharp, octane render, HDR, volumetric rays, hyper realistic
00001-100_k_lms_856323_0.00.png besieging army of sausages in front of a medieval castle from the 11th century, cloud of burning arrows raining down from towers, heavy rain and thunderstorm, lightning strikes, dramatic harsh lighting, masterpiece, sharp, octane render, HDR, volumetric rays, hyper realistic
00000-50_k_lms_856323_0.00.png

Antwort von medienonkel:

Ich bin schon wieder beim nächsten Thema.... Nackerte gehen ja auch ;-)

Aber erstaunlich, alle paar Minuten tut sich an dem UI was. Jetzt zeigts auch direkt die ungefähre verbleibende Berechnungszeit an.

Antwort von Hayos:

medienonkel hat geschrieben:
Wieviele iterations/second hast du?

Der interne 4fach scaler und die Gesichts Korrektur bringen auch einiges.
Jedoch bin ich zu blöd ordentliche prompts zu erstellen :-) Ja genau, Gesichtskorrektur habe ich auch immer an :) Zum Scalen nehme ich Topaz Gigapixel wenn nötig.

Die Prompts sind natürlich eine Wissenschaft für sich, aber man kann oft auch einfach Glück haben. Und angeblich kann wertet man einzelne Promptwörter höher, wenn man ein "!" davor macht.

medienonkel hat geschrieben:
Ich bin schon wieder beim nächsten Thema.... Nackerte gehen ja auch ;-) Jupp^^ "Rule 34" ist eben nicht totzukriegen ;) Und Prominente gehen auch, wie man bei Freezer sieht - das war bei "Dall-E" ja auch nicht erlaubt. Übrigens ein Tipp: Will man allgemein bessere Gesichter, einfach mal mehrere Promis die sich ähneln angeben.

Aber erstaunlich, alle paar Minuten tut sich an dem UI was. Jetzt zeigts auch direkt die ungefähre verbleibende Berechnungszeit an. Ja und heute ist ein "STOP" dazu gekommen, vorher habe ich immer das Berechnungsfenster geschlossen um eine Berechnung zu unterbrechen. (BETA habe ich nicht aktiviert)

@freezer: Deine Renderzeiten sind natürlich traumhaft :D Und tolle Bilder ! !

Antwort von medienonkel:

Ich bin jetzt auch erstmal dazu übergegangen den seed auf random zu stellen und einfach mal 30 Bilder rausrechnen zu lassen. Dauert bei mir auch nur 15 Minuten bei 768x512. Dann nehm ich den passendsten seed und schau, was da so dabei raus kommt.

Den internen scaler finde ich im Vergleich zu Gigapixel ganz gut. Man kann halt nix einstellen. Aber der entrauscht schon ziemlich massiv.

Trotz Gesichtskorrektur wird aber immer noch fleissig geschielt. Und mit der Unterscheidung zwischen Gliedmaßen gibts auch noch Probleme...

Antwort von DAF:

Hayos hat geschrieben:
...
Und angeblich kann wertet man einzelne Promptwörter höher, wenn man ein "!" davor macht.
... Gibt"s denn irgendwo ein white paper oder best practice Tipps was die ganzen Einstellungen (z.B. Guidance Scale bzw. Number of inference steps) exact bedeuten/bewirken?

Antwort von Hayos:

DAF hat geschrieben:
Gibt"s denn irgendwo ein white paper oder best practice Tipps was die ganzen Einstellungen (z.B. Guidance Scale bzw. Number of inference steps) exact bedeuten/bewirken? Bei Youtube gibt es einige Videos, habe ich aber auch noch nicht gezielt nachgeschaut, dass ich da was empfehlen könnte. Was Prompts betrifft: ein richtiger "Prompt Guide" (wie für Dall-E) existiert meines Wissens noch nicht. Den Installer gibts ja auch erst seit ein paar Tagen :) Am meisten lernt man daher derzeit durch Prompts von anderen.

zb. https://lexica.art/ ist da eine oft genannte Quelle.

Oder hier mal auf dem offiziellen Discord-Server stöbern: https://discord.gg/stablediffusion

Antwort von cantsin:

DAF hat geschrieben:
Gibt"s denn irgendwo ein white paper oder best practice Tipps was die ganzen Einstellungen (z.B. Guidance Scale bzw. Number of inference steps) exact bedeuten/bewirken? Guidance Scale scheint die Varianz der Output-Bilder zu steuern (je höher die Guidance Scale, desto geringer die Varianz). Number of inference steps scheint die Rechentiefe zu steuern - bei geringeren Werten resultieren weniger detaillierte Bilder.

Antwort von DAF:

Na mal sehen, muss ich mal alles in Ruhe nachlesen. Aber schon echt spannend & fazinierend, was die Software so auswirft:
Interview-KI.jpg

Antwort von medienonkel:

Zumindest zeigen sich schon mal die neuesten Kameratrends: a_pack_shot_of_a_35_mm_film_camera__2040_design__f_012ece11_RealESRGAN_x4plus.png

Antwort von Blackbox:

Läuft das prg eigentlich nach Installation per Stick auch auf nem Offline-Rechner, oder brauchts dazu ne aktive Onlineverbindung?

Antwort von cantsin:

Blackbox hat geschrieben:
Läuft das prg eigentlich nach Installation per Stick auch auf nem Offline-Rechner, oder brauchts dazu ne aktive Onlineverbindung? Offline.

Antwort von blindcat:

Ziemlich geil. Tatsächlich auch sehr unerwartete Ergebnisse so im ersten Rumspielen. Ich muss mir auch erstmal angewöhnen Ergebnisse auch zu speichern :-)
Abstrakt mag es aber auch sehr.

Wie beendet man es eigentlich sauber?
Einfach Strg-C in der Console? Sieht nicht sauber aus.

Antwort von freezer:

blindcat hat geschrieben:
Ziemlich geil. Tatsächlich auch sehr unerwartete Ergebnisse so im ersten Rumspielen. Ich muss mir auch erstmal angewöhnen Ergebnisse auch zu speichern :-)
Abstrakt mag es aber auch sehr.

Wie beendet man es eigentlich sauber?
Einfach Strg-C in der Console? Sieht nicht sauber aus. Im Stable Diffusion WebUI Verzeichnis befindet sich der Ordner Output. Da werden normalerweise alle Ergebnisse inklusive der Einstellungen automatisch gespeichert.

Antwort von blindcat:

Ja, wenn das automatische Speichern aktiviert ist. Hab ich jetzt mittlerweile so getan :-))
Noch jemand eine Idee, wie man den Prozess regulär beendet (Windows)? Also das Backend/Server runterfährt? Der Start Prozess bleibt ja quasi stehen in seiner batch Datei.
Frankie
(PS bissi enttäuscht bin ich von 'photograph of a highway to hell' :-)

Antwort von cantsin:

Weiß jemand, wie man Stable Diffusions "img2img"-Funktion lokal zum Laufen kriegt, also die Bildretusche per prompt?

In dem WebUI ist sie ja leider nicht integriert....

Antwort von blindcat:

Na? Ist das nicht die Option
With an image
Click Browse.. next to Initial Image. Select your desired image.
An optional text prompt can help you further describe the kind of image you want to generate.
Press Make Image. See the image generated using your prompt.
Ich habs nicht ausprobiert, aber use initial image (Durchsuchen) ist bei mir in der UI.

Antwort von cantsin:

blindcat hat geschrieben:
Na? Ist das nicht die Option
With an image
Click Browse.. next to Initial Image. Select your desired image. Nee, das ist etwas anderes. Bei "with an image" wird das Referenzbild nur als grobe Vorlage verwendet. Bei "img2img" kann man Stable Diffusion das hochgeladene Bild photoshoppen lassen.

Hier wird's erklärt:
https://www.youtube.com/watch?v=_CtguxhezlE

Antwort von Hayos:

@Cantsin: Ich warte noch, bis das ordentlich integriert ist in Photoshop & Krita. Da ist man dran und es gibt schon Videos bei Twitter von verschiedenen Entwicklern. Der Stand dort sieht schon sehr fortgeschritten aus, ich denke mal, das wird nicht mehr so lange dauern.

Antwort von blindcat:

Was das Beenden angeht: Nach dem Drücken von Strg-C gibt es noch ein paar Info Ausgaben. Es sieht theoretisch nach sauberem Runterfahren aus. Drücken von Q, Esc, oder ähnliches reagiert nicht. Strg-C funktioniert. Aber nach einem Restart, also ausführen der Start Stable Diffusion UI.cmd, ist dann beim Runterfahren, also dem zweiten Runterfahren im laufenden System, ein lock drin. Waiting on closing connections kommt nicht zurück, und kann nur durch nochmaliges drücken von Strg-C abgebrochen werden. ... Schade.

Antwort von roki100:

freezer hat geschrieben:
"human blood cells fighting against Anthropomorphic beautiful floating glass virus knights with tentacles and one eye, intricate filigree metal design, killed by blue high energy laser rays, explosion, magical plants, stone arch, photography, cinematic lighting, intricate details, extremely detailed volumetric rays, octane render, hdr"

00000-50_k_lms_3156042306_0.00.png ähnliches will ich mit Blender + Fusion erstellen, Aufwand ca. 3 Stunden und dann noch Export/Render Zeit...

Antwort von blindcat:

Mit freezer human blood cells und dem wunsch nach einer straße hab ich dann doch noch meinen highway to hell bekommen. Und wie animiert man es jetzt ...? :-)

Antwort von roki100:

blindcat hat geschrieben:
Und wie animiert man es jetzt ...? :-) Wenn das geht, dann lass ich das mit Blender und Fusion und zig Nodes...ein paar Zeilen schreiben inkl. "jetzt beweg die Hüfte und Tentakel" oderso und das spielt sich so ab und ich werd verrückt ;)

Antwort von Hayos:

blindcat hat geschrieben:
Und wie animiert man es jetzt ...? :-) In Kombination mit Deforum, Warpfusion etc.... was das alles ist, habe ich noch keine Zeit gehabt, mich einzulesen, aber unter dem Hashtag

#stablediffusion

findet man bei Twitter einiges :) Zb.

https://twitter.com/remi_molettee/statu ... 3565266944

https://twitter.com/Infinite__Vibes/sta ... 1268642817

Noch was unklar? Dann in unserem Forum nachfragen
Zum Original-Thread / Zum KI-Forum

Antworten zu ähnlichen Fragen //

Die Stable Diffusion Revolution: Kostenlose Bildgenerierung per KI jetzt auch auf dem Heim-PC
Midjourney 5.2 und Stable Diffusion XL - jetzt auch mit einfachem Out-Painting
Bald für jedermann: Kostenlose Bildgenerierung per KI auf dem Heim-PC
Microsoft bietet ab sofort kostenlose KI-Bildgenerierung per Edge Browser
Inspirierende KI-Bild-Variationen per Mausklick mit Stable Diffusion Reimagine / unCLIP
KI Bilder mit Stable Diffusion jetzt auch direkt in Photoshop und Gimp erzeugen
Paint.NET 5.0 - kostenlose Windows Bildbearbeitung jetzt mit GPU-Beschleunigung
Neue GPU-Benchmarks: AMD bei Stable Diffusion nun auf Augenhöhe mit Nvidia
Schlägt Meta Stable Diffusion XL mit Ästhetik? Emu trainiert "vom Feinsten"
Mit KI Bewegung ins Bild malen - DragNUWA 1.5 erweitert Stable Diffusion
Midjourney endlich mit einfachem Web Editor
Stable Diffusion Texture Generator für Blender
Künstliche Kunst - Stable Diffusion Version 2.0 vorgestellt...
Neue Nvidia-KI generiert Bilder 30x schneller als Stable Diffusion
Pro Bild nur 15 Sekunden: Stable Diffusion läuft auf Smartphone
Stable Diffusion - Tipps und Tricks - Teil 1 - Einrichtung und Einstieg
Runway Gen2: Stable Diffusion Schöpfer stellen neue Text-to-Video-KI vor
Google optimiert Stable Diffusion für Smartphones: Ein Bild in nur 12 Sekunden

Kostenlose Profi-Kamera-App Blackmagic Camera for Android 3.2 bringt H.265-, SRT-Streaming und mehr

Blackmagic hat wieder eine neue Version seiner kostenlosen professionellen Camera App für Android veröffentlicht. Die Version 3.2 bringt mehrere Funktionen, die vor allem Live-...

// 15:18 Do, 27. Nov 2025von Thomas Richter

Aktuelles

Community-Umfrage Sony und slashCam verlosen eine FX2 Cinema Line Kamera

Weihnachten steht vor der Tür - und Sony hat ein besonderes Geschenk für die slashCam Community in Petto: Wer Glück hat, kann sich demnächst eine Sony FX2 unter den Baum legen. ...

// 22:13 Mo, 1. Dez 2025von slashCAM

Test

Die beste Einsteiger-Drohne? DJI Neo 2: Verbesserte Mini-Drohne für Solo-Creator und Einsteiger

Mit der Neo 2 stellt DJI seine weiterentwickelte Einsteiger- und Selfie Drohne Neo 2 vor. Hinzugekommen sind wichtige Funktionen wie Hinderniserkennung, verbessertes Active Track, ...

// 14:39 Do, 27. Nov 2025von Rob

Test

Halbe Portion? Blackmagic PYXIS 12K - Sensor-Test - Rolling Shutter und Dynamik

Die PYXIS Serie bedient den Wunsch vieler Anwender nach einer riggingfähigen Boxed-Kamera. Mit der PYXIS 12K findet nun der Sensor aus der großen URSA CINE 12K in diesem kleineren ...

// 10:47 Di, 25. Nov 2025von Rudi Schmidts

Aktuelle News //

News

Multimodale KI-Modelle ByteDance Vidi2 produziert selbstständig fertige Videos aus Rohmaterial

Chinas ByteDance eröffnet den Dezember KI-Präsentationsreigen und demonstriert mit Paper und Demo ihr neuestes multimodales KI-Modell Vidi 2. Multimodale Modelle akzeptieren ...

// 15:54 Mo, 1. Dez 2025von Rudi Schmidts

News

Bessere MetadatenOrga Blackmagic DaVinci Resolve 20.3 bringt Support für 32K-Workflows und mehr

Blackmagic hat gerade die neue Version 20.3 seines kostenlosen Grading-, Schnitt-, Compositing- und Audio-Mastering-Programms DaVinci Resolve (Studio) veröffentlicht. Die neue ...

// 12:39 Mo, 1. Dez 2025von Thomas Richter

zur Newsübersicht >

Neueste Artikel //

Aktuelles

Community-Umfrage Sony und slashCam verlosen eine FX2 Cinema Line Kamera

Weihnachten steht vor der Tür - und Sony hat ein besonderes Geschenk für die slashCam Community in Petto: Wer Glück hat, kann sich demnächst eine Sony FX2 unter den Baum legen. ...

// 22:13 Mo, 1. Dez 2025von slashCAM

Aktuelles

Aktuelle Sparangebote Große Übersicht - Black Friday Deals 2025 für Foto+Video - Kameras, Objektive, Zubehör usw.

Heute ist der offizielle Black Friday. Wir haben alle unsere bisherigen Rabatt-News mit aktuellen Angeboten in einer Liste zusammengefasst, um Euch das Finden interessanter Deals ...

// 14:42 Fr, 28. Nov 2025von slashCAM

zur Artikelübersicht >

Infoseite // Kostenlose Bildgenerierung per KI: Stable Diffusion jetzt mit einfachem Windows Installer

Antworten zu ähnlichen Fragen //

Kostenlose Profi-Kamera-App Blackmagic Camera for Android 3.2 bringt H.265-, SRT-Streaming und mehr

Community-Umfrage Sony und slashCam verlosen eine FX2 Cinema Line Kamera

Die beste Einsteiger-Drohne? DJI Neo 2: Verbesserte Mini-Drohne für Solo-Creator und Einsteiger

Halbe Portion? Blackmagic PYXIS 12K - Sensor-Test - Rolling Shutter und Dynamik

Multimodale KI-Modelle ByteDance Vidi2 produziert selbstständig fertige Videos aus Rohmaterial

Bessere MetadatenOrga Blackmagic DaVinci Resolve 20.3 bringt Support für 32K-Workflows und mehr

Community-Umfrage Sony und slashCam verlosen eine FX2 Cinema Line Kamera

Aktuelle Sparangebote Große Übersicht - Black Friday Deals 2025 für Foto+Video - Kameras, Objektive, Zubehör usw.

ARTIKEL

THEMEN