Die Firma Stability AI (die unter anderem auch das quelloffene Stable-Diffusion maßgeblich fördert) hat mit DeepFloyd/IF einen weiteren Bildgenerator vorgestellt. Dieser soll sich besonders gut für Schrift und Grafik eignen.
Wer bereits eigene Erfahrungen mit diffusionsbasierten KI-Bildgeneratoren gesammelt hat, kennt das Problem: Korrekte Schrift - egal in welcher Sprache- ist praktisch nicht generierbar. Zu sehen bekommt man in der Regel - wenn überhaupt - einen sprachlichen Kauderwelsch aus halluzinierten Buchstaben.
Doch mit diesem Problem soll nun Schluss sein, denn das neue DeepFloyd/IF-Modell soll fotorealistische Darstellungen mit Schriftzügen ermöglichen. Außerdem soll es sich besonders gut für grafische Aufgaben wie Logo-Design eignen.
In seinen Grundzügen basiert DeepFloyd auf Googles KI-Bildgenerator Imagen. Dieser arbeitet etwas anders als Stable Diffusion und verbindet ein Open Source Large-Language-Model (LLM) von Google ( T5-XXL-1.1) mit einem Pixel-Diffusions-Modell.
Letzteres arbeitet dreistufig und generiert primär nur 64 x 64 Pixel große Bilder, die dann zweimal per Superresolution über 256 x 256 Pixel auf die Ausgabe-Auflösung von 1024 x 1024 Pixel hochskaliert werden. Der Bildgenerator wurde dabei mit dem bewährten LAION-A-Datensatz mit 1,2 Milliarden Bildern trainiert.
Einen offiziellen Web-Bildgenerator, um DeepFloyd/IF einmal online auszuprobieren, gibt es bislang nicht - weil die aktuelle Lizenz einzig den Einsatz für die Forschung und nicht für kommerzielle Zwecke erlaubt. Wer jedoch selbst "daran forschen" will, findet auf Github entsprechende Pakete zum Download.
Gleichzeitig läutet DeepFloyd/IF jedoch auch ein neues Zeitalter für den KI-Heimeinsatz ein. Denn während bisherige Stable Diffusion Modelle bereits mit Grafikkarten ab ca. 6 GB Speicher funktionieren, fordert DeepFloyd nun mindestens 16 GB GPU-Speicher. Für das qualitativ bessere (und damit größere Modell) sind sogar 24 GB obligatorisch. Derart stark steigende Anforderungen für GPU-Speicher bei den kommenden KI-Anwendungen hatten wir bei slashCAM bereits vor kurzem thematisiert.