Bald für jedermann: Kostenlose Bildgenerierung per KI auf dem Heim-PC

// 10:41 Mo, 15. Aug 2022von

Der KI-Algorithmus zum Austauschen von Videohintergründen, dem wir gerade eine eigene News gewidmet haben, nutzt als Grundlage zur Bilderstellung die offene bildgenerierende KI Stable Diffusion. Sie wurde von den KI Forschern Patrick Esser und Robin Rombach entwickelt und gerade als geschlossene Beta gestartet. Das Spannendste ist, daß Stable Diffusion schon bald als Software veröffentlicht werden wird, welche auf Consumer-PCs läuft. Es reicht schon eine Grafikkarte mit 5 GB VRAM (wie etwa eine Nvidia GeForce GTX 1660, RTX 2060 oder eine AMD Radeon RX 5600) aus, um 512x512 Pixel große Bilder in wenigen Sekunden zu erzeugen.

Mit Stable Diffusion generiertes Bild
Mit Stable Diffusion generiertes Bild


So wird die Generierung von Bildern per Text, die bisher nur einem eher engen Kreis von Menschen zugänglich war (oder nur wenige kostenlose Generierungen zuließ), wie etwa per DALL-E 2 und Midjourney), bald für sehr viel mehr Menschen erfahrbar, die damit selbst ohne jede Beschränkung experimentieren können.



Interessant ist in diesem Zusammenhang auch die Aussage von David Holz, dem CEO der Bild-KI Midjourney in einem Interview über die Kosten. Ihm zufolge kostet ein Trainingslauf zum Einlesen eines Pools von Milliarden von Bildern rund 50.000 Dollar und muss meist 10-20 mal wiederholt werden, um zu einem befriedigenden Ergebnis zu kommen. Stable Diffusion trainiert sein Modell mittels 4.000 Nvidia A100 Tensor-Core-GPUs, die jeweils eine Speicherbandbreite von über 2 TB/s besitzen. Sind die Trainingsdaten und damit das Modell erst einmal erstellt, wird viel weniger Rechenleistung benötigt, um den eigentlichen Job auszuführen, also Bilder zu generieren.


Obi-Wan Kenobi eating only one Cannoli
Obi-Wan Kenobi eating only one Cannoli

Diese Asymmetrie ist typische für neuronale Netzwerke, bei denen viel Rechenpower in das Training gesteckt werden muss, das daraus resultierende spezifische Modell, also das neuronale Netz mit all seinen Gewichtungen der einzelnen Knotenpunkte, dann aber viel weniger Leistung benötigt. Kein Wunder - besteht doch zum Beispiel das für Stable Diffusion verwendete, öffentliche Laion B5 Dataset aus einer 240 TB großen Sammlung von 5 Milliarden Bildern samt mehrsprachigen Bildbeschreibungen (das hier durchsucht werden kann), das für ein Trainingslauf eingelesen und gelernt werden muss. Wir sind jedenfalls gespannt auf die ersten selbst erzeugten Bilder und freuen uns auf die Experimente damit. Bis dahin hier ein schöner Vergleich einiger aktueller bildgeneriernder KIs und ihrer besonderen Stile und zwar DALL-E 2, Stable Duffusion, Crayon, Midjourney und DALL-E Flow.


Leserkommentare // Neueste
-paleface-  //  00:27 am 16.8.2022
Man kann vermurlich irgendwann unreal engine material per ai zusammen basteln können. Und dann werden auch Filme daraus entstehen.
berlin123  //  15:28 am 15.8.2022
Schauen wir mal was da rauskommt. Als Oldschool Variante gibtd das ja für Groschenromanautoren als Morphologischer Kasten. Man würfelt sich da die Story einfach aus. Aber...weiterlesen
Abercrombie  //  14:46 am 15.8.2022
Wird für (Dreh-)Bücher schon dran gearbeitet: http://www.frogs42.com/
Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash