Die neue Folge von "Two Minute Papers" stellt ein sehr interessantes neues DeepLearning Projekt vor, daß gleich auf mehrere Arten für die kreative Arbeit eingesetzt werden kann, denn es ist spezialisiert auf das Generieren hochauflösender photorealistischer Bilder.
Zwar konnte auch schon das auf Transformer-Netzwerk Algorithmen basierende GPT-3 von Open AI, ( hier einige interessante Beispiele für seine Universalität), nicht nur sinnvolle Texte, sondern per Image-GPT auch Bilder generieren, aber diese waren in der Qualität (im Gegensatz zu den Texten) mit einer maximalen Auflösung von 192x192 Pixeln noch ziemlich schlecht.
Die neue Technik, die an der Universität Heidelberg entwickelt wurde, verbessert dagegen gerade die Fähigkeiten des neuronalen Transformer Netzwerks in Bezug auf Bilder durch seine Kombination einem Convolutional Netzwerk (CNN) radikal. Sie ereicht dies, indem Bilder nicht nur als Sequenzen von Pixeln gesehen werden (wie von einem bloßen Transformer Netzwerk), sondern vor dem Training damit erst von einem CNN in visuell sinnvolle (semantische) Bildbestandteile abstrahiert werden, was im Resultat Bilder mit viel höheren Auflösungen möglich macht.

So kann der neue Algorithmus auf Basis des gelernten Bildmaterials sowohl aus einfachen Depth-Maps beliebige passende Bilder und 3D-Objekte erzeugen, als auch aus einer schematischen Skizze (hier Himmel, dort Wasser und Berge) photorealistische Landschaftsaufnahmen generieren, aus unscharfen Bildern per Superresolution detaillierte Versionen zaubern, Photos von Menschen generieren, die eine per Skizze vorgegebene Pose einnehmen oder die abgeschnittene Hälfte von Photos zu ergänzen.
// Top-News auf einen Blick:
- DJI Mini 5 Pro soll so viel wie die Mini 4 Pro kosten
- Nikon Z6III bekommt u.a. Auto-Capture, USB-Streaming, Vogelmodus
- Blackmagic senkt Preise für URSA Cine 12K und 17k Kits radikal
- Google Gemini 2.5 Flash Image Nano Banana bringt Charakterkonsistenz und Multi-Imag
- Neue Sony FX3 und FX30 Firmware bringt BIG6-Startbildschirm, RAW-Video per HDMI und ...
- Google Pixel 10 Pro (XL) kommt mit Generativer KI direkt in der Kamera



Wie immer dokumentiert Károly Zsolnai-Fehér durch Vergleiche auch die erstaunlich schnelle Entwicklung der verschiedenen KI-Algorithmen - was vor einem Jahr noch mehr schlecht als recht möglich war, ist jetzt schon passabel und ein, zwei Projekte und Weiterentwicklungen später schon nahezu perfekt möglich. Und meist folgen auf KI-Anwendungen für Photos auch Versionen für Videos, die aufgrund der Vielzahl von Bildern und deren zeitlichen Zusammenhang zwar schwieriger zu berechnen sind, aber im Grunde nach den gleichen Prinzipien manipuliert werden können wie Photos.
Wie wir schon in unserem Artikel Schnitt- und Compositing-Trends 2030 - Videoanwendungen im nächsten Jahrzehnt spekuliert hatten, werden in Zukunft durch solche KI-Algorithmen immer intelligentere Arten des (objektbasierten)-Videoeditings möglich.