Meta hatte im April bereits ein ziemlich mächtiges KI-Modell zur Erstellung von Objektmasken vorgestellt, Segment Anything (SAM). Wenig überraschend arbeitet das Unternehmen auch an einem eigenen KI-Bildgenerator und verfolgt dabei einen ungewöhnlichen Ansatz. Das kürzlich vorgestellte, multimodale Modell CM3leon (auszusprechen wie das Tier) unterstützt nämlich sowohl eine Text-zu-Bild- als auch eine Bild-zu-Text-Generierung und setzt auf eine Transformer-Architektur. Letzteres kennt man bisher eher von KI-Systemen zur Texterstellung, während die bildgenerierende Konkurrenz (DALL-E, Stable Diffusion uä.) auf Diffusionsmodellen beruht. Dort wird ein Bild nach und nach aus Bildrauschen destilliert.
CM3Leons Systemarchitektur dagegen basiert auf einem decoder-only Transformer und wird sowohl an Bild- als auch an Text-Tokens trainiert (die verwendeten Bilder wurden von Shutterstock lizensiert). Daher ist das Modell laut Meta sehr gut darin, komplexe Bilder anhand eines detaillierten Prompts zu generieren (siehe das Kaktus-Beispiel unten), ebenso kann es Bildinhalte beschreiben und Bilder gezielt nach Texteingaben manipulieren.
Das Modell selbst ist noch nicht freigegeben, Meta stellt jedoch einige Bildbeispiele zur Verfügung. So wurden die folgenden Bilder aus diesen vier Prompts generiert:
(1) Ein kleiner Kaktus mit Strohhut und Neon-Sonnenbrille in der Wüste Sahara. (2) Eine Nahaufnahme einer menschlichen Hand, Handmodell. Hohe Qualität. (3) Eine Waschbär-Hauptfigur in einem Anime, die sich auf einen epischen Kampf mit einem Samurai-Schwert vorbereitet. Kampfhaltung. Fantasy, Illustration. (4) Ein Stoppschild im Fantasy-Stil mit der Aufschrift "1991".

// Top-News auf einen Blick:
- Leak: Samsungs plant SATA-Aus - Kommt der Preisschock auch bei SSDs?
- Kompaktkameras wieder im Trend - trotz Smartphones
- Von Mickey Mouse bis Darth Vader - Disney lizenziert seine Figuren an OpenAIs Sora
- Verstehen Video-KIs die Welt? Physik-IQ enthüllt Grenzen der Modelle
- CineBias by RED - 9 neue, kostenlose Nikon Bildrezepte
- Datacolor SpyderPro - Überragendes Feature-Upgrade für Videografen

Vielversprechend hinsichtlich eines professionellen Einsatz dieser KI-Bildtechnologien ist ein sogenanntes "Structure-guided image editing", bei dem CM3leon beim Bildediting auch Informationen hinsichtlich der Bildstruktur berücksichtigen soll; leider gibt es dafür keine Bildbeispiele. Gezeigt wird dagegen, wie das Modell vorgegebene Objekte an spezifische Bildkoordinaten setzt bei der Bilderstellung, was eine Vorstellung davon gibt, wie gezielt man mit diesem Modell gestalten könnte:

Beim Vorgehen "Segmentation-to-image" wiederum nimmt CM3leon eine Alphamaske als Input und generiert ein Bild, das den jeweiligen Umriss enthält (und schließt damit quasi an das Segment Anything-Modell an).

Während die von Meta gezeigten Bilder (noch) nicht den Grad an Fotorealismus aufweisen, den die Konkurrenz zT. beherrscht, ist eine beeindruckende Vielseitigkeit und Funktionalität in diesem multimodalen Modell enthalten. Wir sind gespannt, wann und wie es in Zukunft zur Verwendung veröffentlicht wird.



















