Einfache KI-Workflows Blueprints und NIMs - Nvidia zeigt "3D-Guided Generative AI" für RTX GPUs

// 11:20 So, 4. Mai 2025von

KI-gestützte Bilderzeugung entwickelt sich mit rasanter Geschwindigkeit, doch eine der größten Herausforderungen bleibt die kreative Kontrolle. Stand der Technik ist bis auf weiteres das Erstellen von Szenen mit Text (sog. Prompting).


Die Beschreibung kann jedoch niemals alle Details beinhalten, die man als Anwender beabsichtigt. Und feine Details wie Komposition, Kamerawinkel oder Objektplatzierung sind zudem alleine durch Text nicht eindeutig oder exakt zu vermitteln. Deswegen ist man bei vielen Modellen dazu übergegangen, dass man dem KI-Modell auch ein Bild als eine Art Skizze von der eigenen Idee zum Prompt mitliefert.



Eine zweite Schwierigkeit besteht oft darin, einen Workflow aufzubauen, der Input- und Output des Modells letztlich zusammenbringt. Hierfür bedient man sich oft einer Node-Struktur und einer Oberfläche, mit welcher sich die einzelnen Funktionen visuell einfach verknüpfen lassen. ComfyUI ist hier eines der meistgenutzten Programme aus der Open Source Community, jedoch schreckt das nicht ganz triviale Setup so manchen potentiellen Anwender ab.



Blueprints und NIMs - Nvidia zeigt "3D-Guided Generative AI" für RTX GPUs


In diese Bresche will Nvidia mit seinen NIM-Microservices und Blueprints springen. Unter NIMs darf man sich von Nvidia kuratierte und optimierte KI-Modelle vorstellen, die sich leicht installieren und verknüpfen lassen. Solche NIM Microservices können beispielsweise ein Large Language Modell aber auch eine KI-Sprachausgabe sein. Meistens basieren die NIM Services dabei auf Open Source Modellen. Einen aktuellen Überblick findet man unter anderem hier.



Gleichzeitig entwickelt und verteilt Nvidia auch sogenannte KI Blueprints. Dies sind Beispiel-Workflows, welche NIMs zu einer nutzbaren Applikation verknüpfen. Ein solcher Blueprint für 3D-gesteuerte generative KI steuert nun die Bildgenerierung, indem er einen 3D-Szenenentwurf in Blender verwendet , um dem Bildgenerator (FLUX.1-dev von Black Forest Labs) eine Depth-Map bereitzustellen, die zusammen mit einer Benutzereingabe anschließend die gewünschten Bilder generiert.


In der Praxis sieht die Anwendung so aus:






Die Depth-Map hilft dem Bildmodell zu verstehen, wo Dinge platziert werden sollen. Der Vorteil dieser Technik besteht darin, dass keine hochdetaillierten Objekte oder hochwertigen Texturen erforderlich sind, da die Objekte sowieso in Graustufen umgewandelt werden. Weil die Szenen in 3D vorliegen, können Benutzer Objekte problemlos verschieben und Kamerawinkel ändern. Natürlich ist hierfür jedoch ein Basis-Verständnis von der Blender-Bedienung notwendig.



Für die technisch interessierten: Hinter dem Blueprint verbirgt sich weiterhin ComfyUI, welches sich besonders leicht installieren lässt. Für die Grafikausgabe ist als NIM- Microservice ein FLUX.1-dev-Modell zuständig, das für GeForce RTX-Grafikprozessoren optimiert wurde. Dieser konkrete KI-Blueprint für 3D-gesteuerte generative KI erfordert mindestens eine NVIDIA GeForce RTX 4080 Grafikkarte.



Ähnliche News //
Umfrage
    Mit welchem Programm schneidest Du?














    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash