Newsmeldung von slashCAM:
Vor kurzem wurde die Text-zu-Bild KI Stable Diffusion veröffentlicht, mit deren Hilfe man kostenlos auf dem eigenen Computer auch zuhause auf dem eigenen PC phantastisch...
Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Kostenlose Bildgenerierung per KI: Stable Diffusion jetzt mit einfachem Windows Installer
Antwort von Hayos:
Sehr schön, bin mal auf den neuen Patch gespannt :) Und natürlich auf die ganzen In-Paint-Sachen die da in Arbeit sind für Photoshop und Krita...
Falls es jemanden interessiert, hier mal meine Renderzeiten mit einer alten GTX970 4GB VRAM (eigentlich 3,5GB)
768x512 px = 1:40 Minuten
512x768 px = 1:40 Minuten
512x512 px = 1:00 Minute
768x768 px = 3:40 Minuten
Höhere Auflösungen verweigert er.
Ich nehme meist die ersten beiden Auflösungen, die Renderzeit ist noch im Rahmen und die KI-Bildqualität (also nicht nur die reine Pixelzahl) ist wesentlich(!) höher, als bei den Standard-512x512 px.
Antwort von medienonkel:
Wieviele iterations/second hast du?
Der interne 4fach scaler und die Gesichts Korrektur bringen auch einiges.
Jedoch bin ich zu blöd ordentliche prompts zu erstellen :-)
Antwort von freezer:
Bei 50 iteration steps und 512x512 braucht meine NVIDA RTX A6000 rund 5 Sekunden. Bei 1024x576 sind's schon 17 Sekunden.
Und bei 1024x1024 macht mir Stable Diffusion bereits die 48GB Ram der Grafikkarte voll.
Antwort von Darth Schneider:
@Cantsin
Du hast sicher recht.
Aber auf der anderen Seite…
Nun ja am, wer die App zum professionell schneiden braucht um seine Brötchen zu verdienen und nicht wenigstens zum gratis Resolve greift ist eh selber schuld. ;)
Gruss Boris
Antwort von freezer:
medienonkel hat geschrieben:
Wieviele iterations/second hast du?
Der interne 4fach scaler und die Gesichts Korrektur bringen auch einiges.
Jedoch bin ich zu blöd ordentliche prompts zu erstellen :-)
Ja, ist nicht einfach und man muss probieren, probieren, probieren.
Wichtig ist dabei, den Seed gleich zu lassen, sonst gibt es beim Herumprobieren immer ständig völlig andere Ergebnisse.
Hier, gerade nach etlichen Versuchen geschafft:
"an extremely huge fish halfway below waterline carrying a small island with an shining extremely tall lighthouse on top of the fish's back, photography, cinematic lighting"
1024 x 576 px 150 steps
Seed: 1203228410
00002-150_k_lms_1203228410_0.00.png
"AI as king on an electronic throne, computer kneeling, photography, cinematic lighting, luminescence, octane render, hdr"
00000-50_k_lms_3156042306_0.00.png
"Anthropomorphic corona virus docking onto a human cell, photography, cinematic lighting, luminescence, octane render, hdr"
00000-50_k_lms_3156042306_0.00.png
Antwort von freezer:
"human blood cells fighting against Anthropomorphic beautiful floating glass virus knights with tentacles and one eye, intricate filigree metal design, killed by blue high energy laser rays, explosion, magical plants, stone arch, photography, cinematic lighting, intricate details, extremely detailed volumetric rays, octane render, hdr"
00000-50_k_lms_3156042306_0.00.png
"spaghettification of a human Black Hole, quarks, portrait, photography, photorealism, sunlight, soft light, soft shadows, octane render, unreal engine, hyper detailed, volumetric lighting, hdr, octane render, fantasy, 4k, 8K"
00003-140_k_lms_1959911663_0.00.png
"John Oliver, portrait, elaborate stained glass windows with night theme, photography, photorealism, sunlight, soft light, soft shadows, octane render, unreal engine, hyper detailed, volumetric lighting, hdr, octane render, fantasy, 4k, 8K"
00000-140_k_lms_2613035656_0.00.png
"Maximus horse, portrait, elaborate stained glass windows with night theme, cyberpunk, photography, photorealism, sunlight, soft light, soft shadows, Bioluminescence, octane render, unreal engine, hyper detailed, volumetric lighting, hdr, octane render, fantasy, 4k, 8K"
00000-140_k_lms_1090364067_0.00.png
"Skeletor, portrait, oil painting, leonardo da vinci style"
00000-140_k_lms_3389641867_0.00.png
Antwort von medienonkel:
Merci!
Also mit so ner fetten GPU kann ich leider nicht dienen ;-)
Leider lassen sich die Ergebnisse scheinbar nicht von einem Rechner auf den anderen übertragen.
Exakt die gleichen Settings inkl. seed bringen bei mir mit dem prompt:
"an extremely huge fish halfway below waterline carrying a small island with an shining extremely tall lighthouse on top of the fish's back, photography, cinematic lighting"
das Ergebnis
an_extremely_huge_fish_halfway_below_waterline_car_a88223f6_GFPGANv1.3_RealESRGAN_x4plus.jpg
Hat 01:53 gebraucht. GPU Speicher war bei 5 GB.
Antwort von freezer:
medienonkel hat geschrieben:
Merci!
Also mit so ner fetten GPU kann ich leider nicht dienen ;-)
Leider lassen sich die Ergebnisse scheinbar nicht von einem Rechner auf den anderen übertragen.
Exakt die gleichen Settings inkl. seed bringen bei mir mit dem prompt:
"an extremely huge fish halfway below waterline carrying a small island with an shining extremely tall lighthouse on top of the fish's back, photography, cinematic lighting"
das Ergebnis
an_extremely_huge_fish_halfway_below_waterline_car_a88223f6_GFPGANv1.3_RealESRGAN_x4plus.jpg
Hat 01:53 gebraucht. GPU Speicher war bei 5 GB.
Es gibt noch andere Einflussfaktoren:
cfg_scale: 7.5
und das verwendete Diffusion Modell:
stable-diffusion-v1-4 statt stable-diffusion-v-1-4-original
Antwort von freezer:
"spaghettification of a human being , photography, cinematic lighting, hdr"
00001-250_k_lms_1203228410_0.00.png
Antwort von medienonkel:
Dachte ich mir schon, dass es vielleicht unterschiedliche Modelle sein könnten.
Ich hab auch die beta option aktiviert. Ich glaub, der "installer" zieht sich auch jedesmal die aktuellste Version.
Zumindest kann man damit sehr gut Zeit verplempern ;-)
Antwort von medienonkel:
highly detailed photograph of a medieval castle under siege from the 11th century, heavy rain and thunderstorm, harsh lighting, 4k, 8k
Width: 1280
Height: 768
Seed: 856323
Steps: 50
Guidance Scale: 7.5
Prompt Strength: 0.8
Use Face Correction: GFPGANv1.3
Use Upscaling: RealESRGAN_x4plus
highly_detailed_photograph_of_a_medieval_castle_un_4aae9c72_GFPGANv1.3_RealESRGAN_x4plus.jpg
Antwort von freezer:
Besieging army of knights in front of a highly detailed photograph of a medieval castle from the 11th century, a rain of arrows coming from towers, heavy rain and thunderstorm, harsh lighting, 4k, 8k
1024 x 512
CFG scale 7.5
Seed 856323
00001-250_k_lms_856323_0.00.png
Antwort von freezer:
Modifiziert:
besieging nordic warriors in front of a medieval castle from the 11th century, cloud of burning arrows raining down from towers, heavy rain and thunderstorm, lightning strikes, dramatic harsh lighting, masterpiece, sharp, octane render, HDR, volumetric rays, hyper realistic
00001-100_k_lms_856323_0.00.png
besieging army of sausages in front of a medieval castle from the 11th century, cloud of burning arrows raining down from towers, heavy rain and thunderstorm, lightning strikes, dramatic harsh lighting, masterpiece, sharp, octane render, HDR, volumetric rays, hyper realistic
00000-50_k_lms_856323_0.00.png
Antwort von medienonkel:
Ich bin schon wieder beim nächsten Thema.... Nackerte gehen ja auch ;-)
Aber erstaunlich, alle paar Minuten tut sich an dem UI was. Jetzt zeigts auch direkt die ungefähre verbleibende Berechnungszeit an.
Antwort von Hayos:
medienonkel hat geschrieben:
Wieviele iterations/second hast du?
Der interne 4fach scaler und die Gesichts Korrektur bringen auch einiges.
Jedoch bin ich zu blöd ordentliche prompts zu erstellen :-)
Ja genau, Gesichtskorrektur habe ich auch immer an :) Zum Scalen nehme ich Topaz Gigapixel wenn nötig.
Die Prompts sind natürlich eine Wissenschaft für sich, aber man kann oft auch einfach Glück haben. Und angeblich kann wertet man einzelne Promptwörter höher, wenn man ein "!" davor macht.
medienonkel hat geschrieben:
Ich bin schon wieder beim nächsten Thema.... Nackerte gehen ja auch ;-)
Jupp^^ "Rule 34" ist eben nicht totzukriegen ;) Und Prominente gehen auch, wie man bei Freezer sieht - das war bei "Dall-E" ja auch nicht erlaubt. Übrigens ein Tipp: Will man allgemein bessere Gesichter, einfach mal mehrere Promis die sich ähneln angeben.
Aber erstaunlich, alle paar Minuten tut sich an dem UI was. Jetzt zeigts auch direkt die ungefähre verbleibende Berechnungszeit an.
Ja und heute ist ein "STOP" dazu gekommen, vorher habe ich immer das Berechnungsfenster geschlossen um eine Berechnung zu unterbrechen. (BETA habe ich nicht aktiviert)
@freezer: Deine Renderzeiten sind natürlich traumhaft :D Und tolle Bilder ! !
Antwort von medienonkel:
Ich bin jetzt auch erstmal dazu übergegangen den seed auf random zu stellen und einfach mal 30 Bilder rausrechnen zu lassen. Dauert bei mir auch nur 15 Minuten bei 768x512. Dann nehm ich den passendsten seed und schau, was da so dabei raus kommt.
Den internen scaler finde ich im Vergleich zu Gigapixel ganz gut. Man kann halt nix einstellen. Aber der entrauscht schon ziemlich massiv.
Trotz Gesichtskorrektur wird aber immer noch fleissig geschielt. Und mit der Unterscheidung zwischen Gliedmaßen gibts auch noch Probleme...
Antwort von DAF:
Hayos hat geschrieben:
...
Und angeblich kann wertet man einzelne Promptwörter höher, wenn man ein "!" davor macht.
...
Gibt"s denn irgendwo ein white paper oder best practice Tipps was die ganzen Einstellungen (z.B. Guidance Scale bzw. Number of inference steps) exact bedeuten/bewirken?
Antwort von Hayos:
DAF hat geschrieben:
Gibt"s denn irgendwo ein white paper oder best practice Tipps was die ganzen Einstellungen (z.B. Guidance Scale bzw. Number of inference steps) exact bedeuten/bewirken?
Bei Youtube gibt es einige Videos, habe ich aber auch noch nicht gezielt nachgeschaut, dass ich da was empfehlen könnte. Was Prompts betrifft: ein richtiger "Prompt Guide" (wie für Dall-E) existiert meines Wissens noch nicht. Den Installer gibts ja auch erst seit ein paar Tagen :) Am meisten lernt man daher derzeit durch Prompts von anderen.
zb. https://lexica.art/ ist da eine oft genannte Quelle.
Oder hier mal auf dem offiziellen Discord-Server stöbern: https://discord.gg/stablediffusion
Antwort von cantsin:
DAF hat geschrieben:
Gibt"s denn irgendwo ein white paper oder best practice Tipps was die ganzen Einstellungen (z.B. Guidance Scale bzw. Number of inference steps) exact bedeuten/bewirken?
Guidance Scale scheint die Varianz der Output-Bilder zu steuern (je höher die Guidance Scale, desto geringer die Varianz). Number of inference steps scheint die Rechentiefe zu steuern - bei geringeren Werten resultieren weniger detaillierte Bilder.
Antwort von DAF:
Na mal sehen, muss ich mal alles in Ruhe nachlesen. Aber schon echt spannend & fazinierend, was die Software so auswirft:
Interview-KI.jpg
Antwort von medienonkel:
Zumindest zeigen sich schon mal die neuesten Kameratrends:
a_pack_shot_of_a_35_mm_film_camera__2040_design__f_012ece11_RealESRGAN_x4plus.png
Antwort von Blackbox:
Läuft das prg eigentlich nach Installation per Stick auch auf nem Offline-Rechner, oder brauchts dazu ne aktive Onlineverbindung?
Antwort von cantsin:
Blackbox hat geschrieben:
Läuft das prg eigentlich nach Installation per Stick auch auf nem Offline-Rechner, oder brauchts dazu ne aktive Onlineverbindung?
Offline.
Antwort von blindcat:
Ziemlich geil. Tatsächlich auch sehr unerwartete Ergebnisse so im ersten Rumspielen. Ich muss mir auch erstmal angewöhnen Ergebnisse auch zu speichern :-)
Abstrakt mag es aber auch sehr.
Wie beendet man es eigentlich sauber?
Einfach Strg-C in der Console? Sieht nicht sauber aus.
Antwort von freezer:
blindcat hat geschrieben:
Ziemlich geil. Tatsächlich auch sehr unerwartete Ergebnisse so im ersten Rumspielen. Ich muss mir auch erstmal angewöhnen Ergebnisse auch zu speichern :-)
Abstrakt mag es aber auch sehr.
Wie beendet man es eigentlich sauber?
Einfach Strg-C in der Console? Sieht nicht sauber aus.
Im Stable Diffusion WebUI Verzeichnis befindet sich der Ordner Output. Da werden normalerweise alle Ergebnisse inklusive der Einstellungen automatisch gespeichert.
Antwort von blindcat:
Ja, wenn das automatische Speichern aktiviert ist. Hab ich jetzt mittlerweile so getan :-))
Noch jemand eine Idee, wie man den Prozess regulär beendet (Windows)? Also das Backend/Server runterfährt? Der Start Prozess bleibt ja quasi stehen in seiner batch Datei.
Frankie
(PS bissi enttäuscht bin ich von 'photograph of a highway to hell' :-)
Antwort von cantsin:
Weiß jemand, wie man Stable Diffusions "img2img"-Funktion lokal zum Laufen kriegt, also die Bildretusche per prompt?
In dem WebUI ist sie ja leider nicht integriert....
Antwort von blindcat:
Na? Ist das nicht die Option
With an image
Click Browse.. next to Initial Image. Select your desired image.
An optional text prompt can help you further describe the kind of image you want to generate.
Press Make Image. See the image generated using your prompt.
Ich habs nicht ausprobiert, aber use initial image (Durchsuchen) ist bei mir in der UI.
Antwort von cantsin:
blindcat hat geschrieben:
Na? Ist das nicht die Option
With an image
Click Browse.. next to Initial Image. Select your desired image.
Nee, das ist etwas anderes. Bei "with an image" wird das Referenzbild nur als grobe Vorlage verwendet. Bei "img2img" kann man Stable Diffusion das hochgeladene Bild photoshoppen lassen.
Hier wird's erklärt:
https://www.youtube.com/watch?v=_CtguxhezlE
Antwort von Hayos:
@Cantsin: Ich warte noch, bis das ordentlich integriert ist in Photoshop & Krita. Da ist man dran und es gibt schon Videos bei Twitter von verschiedenen Entwicklern. Der Stand dort sieht schon sehr fortgeschritten aus, ich denke mal, das wird nicht mehr so lange dauern.
Antwort von blindcat:
Was das Beenden angeht: Nach dem Drücken von Strg-C gibt es noch ein paar Info Ausgaben. Es sieht theoretisch nach sauberem Runterfahren aus. Drücken von Q, Esc, oder ähnliches reagiert nicht. Strg-C funktioniert. Aber nach einem Restart, also ausführen der Start Stable Diffusion UI.cmd, ist dann beim Runterfahren, also dem zweiten Runterfahren im laufenden System, ein lock drin. Waiting on closing connections kommt nicht zurück, und kann nur durch nochmaliges drücken von Strg-C abgebrochen werden. ... Schade.
Antwort von roki100:
freezer hat geschrieben:
"human blood cells fighting against Anthropomorphic beautiful floating glass virus knights with tentacles and one eye, intricate filigree metal design, killed by blue high energy laser rays, explosion, magical plants, stone arch, photography, cinematic lighting, intricate details, extremely detailed volumetric rays, octane render, hdr"
00000-50_k_lms_3156042306_0.00.png
ähnliches will ich mit Blender + Fusion erstellen, Aufwand ca. 3 Stunden und dann noch Export/Render Zeit...
Antwort von blindcat:
Mit freezer human blood cells und dem wunsch nach einer straße hab ich dann doch noch meinen highway to hell bekommen. Und wie animiert man es jetzt ...? :-)
Antwort von roki100:
blindcat hat geschrieben:
Und wie animiert man es jetzt ...? :-)
Wenn das geht, dann lass ich das mit Blender und Fusion und zig Nodes...ein paar Zeilen schreiben inkl. "jetzt beweg die Hüfte und Tentakel" oderso und das spielt sich so ab und ich werd verrückt ;)
Antwort von Hayos:
blindcat hat geschrieben:
Und wie animiert man es jetzt ...? :-)
In Kombination mit Deforum, Warpfusion etc.... was das alles ist, habe ich noch keine Zeit gehabt, mich einzulesen, aber unter dem Hashtag
#stablediffusion
findet man bei Twitter einiges :) Zb.
https://twitter.com/remi_molettee/statu ... 3565266944
https://twitter.com/Infinite__Vibes/sta ... 1268642817