Zusammen mit der University of California in Santa Barbara hat Apple ein eigenes KI-Modell entwickelt, das offenbar ein Sprach- und ein Diffusionsmodell kombiniert, um einfache Bildmanipulationen für jedermann zu ermöglichen.
Das auf den Namen MGIE getaufte Modell steht letztlich für Multimodal Large Language Model Guided Image Editing - übersetzt also eine durch ein Sprachmodell geführte Bildbearbeitung. In der Praxis wird die Eingabeaufforderung in eine präzisere Anweisung für das Netzwerk umgewandelt, die dann mittels eines Diffusionsmodells das Eingabebild entsprechend verändert.
Das zugehörige Paper ist hier zu finden und neben einem GitHub Repository gibt es auch eine Demo-Webseite zum herumspielen, die auf Hugging Face gehostet wird.
MGIE ist nicht das erste Projekt dieser Art und mit etwas Know-How kann man auch leicht Stable Diffusion oder Adobes Firefly zur Lösung solcher Aufgaben einsetzen. Es bleibt jedoch abzuwarten, welche Qualität der Output von MGIE haben wird. Das Paper selbst sieht jedenfalls Photoshop-ähnliche Aufgaben als Einsatzzweck.
// Top-News auf einen Blick:
- DJI Mini 5 Pro soll so viel wie die Mini 4 Pro kosten
- Nikon Z6III bekommt u.a. Auto-Capture, USB-Streaming, Vogelmodus
- Blackmagic senkt Preise für URSA Cine 12K und 17k Kits radikal
- Google Gemini 2.5 Flash Image Nano Banana bringt Charakterkonsistenz und Multi-Imag
- Neue Sony FX3 und FX30 Firmware bringt BIG6-Startbildschirm, RAW-Video per HDMI und ...
- Google Pixel 10 Pro (XL) kommt mit Generativer KI direkt in der Kamera

Und auch wenn andere Seiten das vielleicht anders sehen, glauben wir auch, dass es grundsätzlich eher ein schlechtes Zeichen ist, wenn Apple den Code für so ein Tool frei gibt. Denn dann ist es eher unwahrscheinlich, dass es seinen Weg in ein kommendes Produkt findet.
Aber natürlich soll man den Tag nicht vor dem Abend loben. Wir werden sicherlich auch versuchen, uns ein konkreteres Bild von MGIE zu machen - sobald der derzeitige Ansturm auf die HuggingFace-Demoseite etwas abgeflaut ist.