Meta hatte im April bereits ein ziemlich mächtiges KI-Modell zur Erstellung von Objektmasken vorgestellt, Segment Anything (SAM). Wenig überraschend arbeitet das Unternehmen auch an einem eigenen KI-Bildgenerator und verfolgt dabei einen ungewöhnlichen Ansatz. Das kürzlich vorgestellte, multimodale Modell CM3leon (auszusprechen wie das Tier) unterstützt nämlich sowohl eine Text-zu-Bild- als auch eine Bild-zu-Text-Generierung und setzt auf eine Transformer-Architektur. Letzteres kennt man bisher eher von KI-Systemen zur Texterstellung, während die bildgenerierende Konkurrenz (DALL-E, Stable Diffusion uä.) auf Diffusionsmodellen beruht. Dort wird ein Bild nach und nach aus Bildrauschen destilliert.
CM3Leons Systemarchitektur dagegen basiert auf einem decoder-only Transformer und wird sowohl an Bild- als auch an Text-Tokens trainiert (die verwendeten Bilder wurden von Shutterstock lizensiert). Daher ist das Modell laut Meta sehr gut darin, komplexe Bilder anhand eines detaillierten Prompts zu generieren (siehe das Kaktus-Beispiel unten), ebenso kann es Bildinhalte beschreiben und Bilder gezielt nach Texteingaben manipulieren.
Das Modell selbst ist noch nicht freigegeben, Meta stellt jedoch einige Bildbeispiele zur Verfügung. So wurden die folgenden Bilder aus diesen vier Prompts generiert:
(1) Ein kleiner Kaktus mit Strohhut und Neon-Sonnenbrille in der Wüste Sahara. (2) Eine Nahaufnahme einer menschlichen Hand, Handmodell. Hohe Qualität. (3) Eine Waschbär-Hauptfigur in einem Anime, die sich auf einen epischen Kampf mit einem Samurai-Schwert vorbereitet. Kampfhaltung. Fantasy, Illustration. (4) Ein Stoppschild im Fantasy-Stil mit der Aufschrift "1991".

// Top-News auf einen Blick:
- YouTuber verliert Prozess - Bruce Willis Synchronstimme darf nicht geklont werden
- Preview auf objektbasierte Maskentools in der Premiere Pro Beta
- Blackmagic DaVinci Resolve Studio ab sofort auch mit monatlicher Lizenz
- Neu und kostenlos - Adobe Premiere für iPhone
- Canon teasert neue, kompakte Kamera - Cine-Modell zur IBC?
- Revolutionärer AF für Cine-Objektive: Tilta Autofokus-Adapter zapft interne Kamera-...

Vielversprechend hinsichtlich eines professionellen Einsatz dieser KI-Bildtechnologien ist ein sogenanntes "Structure-guided image editing", bei dem CM3leon beim Bildediting auch Informationen hinsichtlich der Bildstruktur berücksichtigen soll; leider gibt es dafür keine Bildbeispiele. Gezeigt wird dagegen, wie das Modell vorgegebene Objekte an spezifische Bildkoordinaten setzt bei der Bilderstellung, was eine Vorstellung davon gibt, wie gezielt man mit diesem Modell gestalten könnte:

Beim Vorgehen "Segmentation-to-image" wiederum nimmt CM3leon eine Alphamaske als Input und generiert ein Bild, das den jeweiligen Umriss enthält (und schließt damit quasi an das Segment Anything-Modell an).

Während die von Meta gezeigten Bilder (noch) nicht den Grad an Fotorealismus aufweisen, den die Konkurrenz zT. beherrscht, ist eine beeindruckende Vielseitigkeit und Funktionalität in diesem multimodalen Modell enthalten. Wir sind gespannt, wann und wie es in Zukunft zur Verwendung veröffentlicht wird.