OpenAI hat die neueste Version seines diffusionsbasierten KI-Bildgenerators DALL-E vorgestellt - er ist nun eng mit ChatGPT verzahnt, was gleich mehrere Vorteile bringt. So sollen Prompt-Vorgaben viel genauer befolgt werden als bisher und auch die Darstellung von Text in den generierten Bildern besser gelingen.
Tatsächlich heißt es, DALL-E 3 sei "built natively on ChatGPT", wobei es zur Modell-Architektur oder dem Training leider keine genauen technischen Deteils gibt. Durch den irgendwie multimodalen Ansatz entsteht ein anderes Verhältnis zwischen Sprache und Bild, was unter anderem in mehr Einfluss auf die Bildgeneration resultiert.
DALL-E 3 wird sogar direkt im Interface von ChatGPT laufen, sodass der Textgenerator gleich die genauen Prompts ausformulieren kann. Man müsse sich nur ein Bild wünschen und ChatGPT agiere dann als Vermittler zu DALL-E 3. Ein umständliches Prompt-Engineering gehöre damit der Vergangenheit an, so OpenAI. Wer möchte, kann natürlich auch selbst eine ausführliche Beschreibung seiner Bildidee eingeben.
Die von OpenAI ausgewählten Beispielsbilder - derzeit ist DALL-E 3 noch in einer geschlossenen Beta - zeigen in der Tat eine große Nähe zwischen Prompt und generiertem Bild:
Das folgende Bild wiederum basiert auf diesem Prompt - man beachte übrigens auch die tadellose Darstellung der Hände: "A middle-aged woman of Asian descent, her dark hair streaked with silver, appears fractured and splintered, intricately embedded within a sea of broken porcelain. The porcelain glistens with splatter paint patterns in a harmonious blend of glossy and matte blues, greens, oranges, and reds, capturing her dance in a surreal juxtaposition of movement and stillness. Her skin tone, a light hue like the porcelain, adds an almost mystical quality to her form."
Auch Text wird korrekt eingefügt, hauptsächlich wenn er im Prompt wörtlich vorgegeben wird; dies hat zuvor nicht geklappt.
Grundsätzlich läßt sich auch in Bildern von DALL-E 3 noch Kauderwelsch finden. So enthielt der Prompt für das folgende Poster die Vorgabe "The bottom text reads, Explore Venus: Beauty Behind the Mist" - das wurde großteils, aber nicht ganz übernommen, während das Kleingedruckte wie zuvor frei fabuliert wurde.
Laut OpenAI sind mehrere Filter im neuen KI-Bildgenerator implementiert, nicht nur um die Darstellung von Gewalt u.ä. zu verhindern. Es soll demnach ebenso wenig möglich sein, Bilder von bekannten Persönlichkeiten zu erstellen, zumindest indem ihr Name im Prompt genannt wird. Auch sollen sich keine Bilder mehr im Stile von noch lebenden Künstlern generieren lassen. Darüberhinaus soll das Unternehmen an einer internen Kennung arbeiten, um künftig erkennen zu können, welche Bilder mit DALL-E 3 generiert wurden.
DALL-E 3 soll Anfang Oktober für ChatGPT Plus und Enterprise Kunden zugänglich werden (also kostenpflichtig).