Nachdem Open AI ja gerade mit Dall-E 3 die KI-News beherrscht, holt Meta zum nächsten Streich in der Liga der generativen Diffusions-Modelle aus. Zwar wurde "Emu" noch nicht offiziell angekündigt, jedoch gibt es bereits ein eingereichtes Paper, welches in der Szene nun große Neugier weckt.
Das Paper führt mit Emu letztlich zwei sehr interessante Neuigkeiten ins Feld. Erstens fand Meta bei der Architektur, dass eine Erhöhung der Kanäle im Autoencoder von 4 auf 16 die Rekonstruktion feiner Details signifikant erhöhte. Kleine Schriften bleiben hiermit beispielsweise deutlich lesbar.

Die wichtigste neue Erkenntnis durch Emu ist laut Meta jedoch, dass ein überwachtes Feintuning mit einem Satz überraschend kleiner, aber extrem visuell ansprechender Bilder die Generierungs-Qualität erheblich verbessern kann.
So ist Emu ein ziemlich normales, latentes Diffusionsmodell, das anhand von 1,1 Milliarden Bild-Text-Paaren trainiert wurde. Das anschließende Feintuning wurde jedoch mit nur "einigen Tausend" Bildern durchgeführt. Diese waren jedoch sorgfältig aufgrund ihrer "ästhetischen Exzellenz" ausgewählt worden. Mit dieser Strategie "Klasse statt Masse" übertraf das Modell nach einer Open User Einschätzung in 82,9 Prozent aller Fälle sich selbst ohne Finetuning. Auch gegenüber Stable Diffusion XL bevorzugten Anwender in einem Webtest die Ergebnisse von Emu in mehr als 2 von 3 Fällen.

Nun bleibt es natürlich spannend, was Meta letztlich mit seinem Modell anfangen wird. Das letzte große Sprachmodell (LLMs) von Meta (LLama) fand schnell seinen Weg in die Hände der Open Source Gemeinde - was nun natürlich auch entsprechende Erwartungen gegenüber Emu aufkommen lässt. Ein paar Tage müssen wir uns allerdings wohl noch gedulden, bis Meta hier seine konkreten Pläne verlautbaren wird.