Nvidia Perfusion - Personen und Objekte in KI-Modelle einfach einbringen

// 11:44 Di, 8. Aug 2023von Rudi Schmidts

Und schon wieder ein großer Fortschritt in der generativen KI-Forschung, den Nvidia zur Siggraph 2023 offiziell präsentieren will und wird: "Perfusion" nennt sich eine neue Text zu Bild (Text-to-Imange, T2I)-Individualisierungs-Methode, die es besonders einfach erlauben soll, eigene Personen und Objekte in einen KI-Bildgenerator "einzutrainieren".

Bislang war es nur mit Spezialwissen möglich, KI-Modelle wie Stable Diffusion um eigene Inhalte zu erweitern. Über sogenanntes Lora-Finetuning lässt sich beispielsweise die eigene Person in künstlich geschaffenen Bildern über einen Text-Prompt ins Modell einbringen. Das neuronale Netz muss dafür anhand von Beispielfotos und den richtigen Prompt die zusätzliche Person lernen, was bislang jedoch nicht mit einem einfachen Mausklick zu bewerkstelligen war. Außerdem muss man die Finetuning-Änderungen an den Gewichten irgendwie als eine Art Patch ins Modell bringen, was bei Cloud-Anwendungen manchmal mit sehr großen Datentransfers für die neuen, veränderten Gewichte einhergeht.

All das soll nun laut Nvidias Perfusion-Paper in Zukunft in mehrfacher Hinsicht leichter werden. So sollen eigene Objekte auf einer einzigen A100 GPU (mit ca. 27GB Speicherverbrauch) in nur 4 Minuten hinzutrainiert werden können. Zugleich soll die Modifikations-Datei mit den veränderten Gewichten gerade einmal 100 Kilobyte (!!, richtig gelesen) klein sein. Die Personalisierung eines Diffusion-Modells für die eigenen Anwendungsfälle sollte hiermit in naher Zukunft für jedermann also einfach möglich werden.

Auch die Anwendung ist denkbar einfach. Man präsentiert dem Netz einfach ein paar Photos und liefert dazu einen Text-Prompt, der beschreibt, welche typische Kategorie in den Bildern zu sehen ist, direkt gefolgt von einem Stern (*).

// Top-News auf einen Blick:

Dieser Begriff mit dem Stern lässt sich anschließend im Diffusions-Modell einfach mit den übrigen Prompt-Worten zur Bildbeschreibung nutzen. Es sollen sogar mehrere Objekte auf diesem Wege "eintrainiert" werden können.

Die Schlüsselinnovation in Perfusion nennt sich "Key-Locking". Bei diesem Ansatz werden neue, vom Benutzer gewünschte Konzepte, wie z. B. eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer breiteren Kategorie verknüpft. So wird beispielsweise die Katze mit der allgemeinen Vorstellung einer "Katze" verknüpft. Diese Technik ermöglicht eine präzisere Anpassung, wobei das Spezielle der hinzu trainierten Objekte in der Darstellung der allgemeinen Kategorie berücksichtigt wird. Es ist also anzunehmen, dass in der Folge alle Katzen der hinzutrainierten Katze stark ähneln werden. Was ein Training mehrerer unterschiedlicher Katzen oder Personen erschweren könnte.

Der breiten, lokalen Anwendung wird trotz einer zeitnahen Veröffentlichung des Codes jedoch die benötigte GPU-Speichergröße von 27GB entgegenstehen. Denn die größten Consumer-GPUs von Nvidia werden aktuell nur mit maximal 24GB ausgeliefert und sind damit knapp zu klein, um Perfusion auszuprobieren.

Genau auf solche kommenden Probleme hatten wir zuletzt in einem speziellen SlashCAM Artikel im April 2023 hingewiesen. Dieser ist leider aktueller denn je, nur mit dem Unterschied, dass AMD tatsächlich in der Software-Unterstützung mächtig aufholt. Doch gerade Perfusion wird mit Sicherheit zuerst einmal nur auf Nvidias Karten laufen...

mehr Infos bei
research.nvidia.com

Auf Socials teilen:

Leserkommentare // Neueste

iasi // 20:55 am 8.8.2023

Das ist dann die Weiterentwicklung des Pflasters im Raw-Editor. Schon eine feine Sache. Früher musste man noch aufwändig stempeln.

Anonymous // 19:36 am 8.8.2023

Firefly in Photoshop ist auch krass gut zum entfernen ungewollter Objekte, hab ich soeben das erste Mal für zwei Werbejobs benutzt...

medienonkel // 12:44 am 8.8.2023

Das hier angesprochene Expertenwissen ist so speziell nun auch wieder nicht. Zu loras gibt es dutzende gute Tutorials.

Im Forum mitdiskutieren >>

Ähnliche News //

News

VFX-Updates: Mocha Pro 2023 und Silhouette 2023 erschienen

BorisFX stellt neue Versionen des Planaren Trackers Mocha Pro sowie von Silhouette (Rotoscoping / Compositing) vor. Das 2023er Update für Mocha Pro soll durch einige ...

// 15:21 Sa, 29. Apr 2023von blip

News

Social Media Posts per KI Adobe Firefly KI jetzt auch mobil in neuer Express App verfügbar

Adobe will mit seiner neuen Express App die Content-Erstellung für Social Media erleichtern. Per Firefly KI lassen sich damit auf die Schnelle passende Bilder generieren - direkt ....

// 14:13 Di, 23. Apr 2024von Thomas Richter

News

Bild-KI Midjourney V5 liefert fotorealistische Bilder - und endlich auch korrekte ...

Midjourney, eine der drei großen bildgenerierenden KIs, hat mit der eben erschienenen neuen (Alpha)Version 5 einen weiteren großen Schritt gemacht: die produzierten Bilder weisen ....

// 12:24 So, 19. Mär 2023von Thomas Richter

News

Mächtiges Tool für Kreative Runway Aleph - Hollywood-Spezialeffekte per KI für alle?

Runway hat mit Aleph ein neues Videomodell vorgestellt, das zahlreiche Funktionen speziell zur nachträglichen Videobearbeitung per KI mitbringt und dadurch im Handumdrehen ...

// 19:59 Mo, 28. Jul 2025von Thomas Richter

News

VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC

Ein chinesisches Forscherteam hat eine neue Text-to-Video KI veröffentlicht, mit der sich Videos per Texteingabe erzeugten lassen. Ähnliche Algorithmen haben zwar schon Meta mit .....

// 13:41 Mo, 20. Mär 2023von Thomas Richter

zur Newsübersicht >

Top Deals für Filmemacher Erste Black Friday Angebote von Atomos, Nanlite, DZOFILM und mehr

Die vielen Rabattaktionen rund um den Black Friday (der dieses Jahr auf den 28. November fällt) sind immer wieder eine gute Gelegenheit für ein Schnäppchen - gerade wenn man ...

// 12:24 Di, 18. Nov 2025von Thomas Richter

Meinung

Hollywood as a Service? ARRIs Color KnowHow könnte Millionen Wert sein - als Workflow Lizenz für Dritte

Kamera-Hardware und die Color-Science in der Firmware waren bei ARRI bislang untrennbar verbunden. Doch muss das auch weiterhin so sein?

// 15:44 Mo, 17. Nov 2025von Rudi Schmidts

Test

Entry-Level Cinema Kamera Canon EOS C50 im Praxistest: Kompaktes Arbeitstier mit 7K 50p Raw - die neue FX3 Konkurrenz

Mit der EOS C50 rundet Canon sein Cinema EOS Portfolio nach unten hin ab und bringt gleichzeitig einen direkten Konkurrenten zur erfolgreichen Sony FX3 auf den Weg. Wir haben uns ...

// 15:55 Do, 13. Nov 2025von Rob

Test

Alive and Kicking Blackmagic Pocket Cinema Camera 4K Sensor-Test - Wiedersehen mit ProRes RAW

Nachdem Blackmagic seinem Pocket Kamera-Klassiker ein unerwartetes ProRes RAW Update beschert hat, fragen wir uns, für wen sich das neue RAW Format eigentlich lohnt...

// 13:49 Fr, 31. Okt 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Test

Kameratests auf einen Blick Die besten Kameras 2023: Welche Kameras haben uns in diesem Jahr besonders beeindruckt?

Acht Kameras haben es auf unsere Liste der besten Kameras 2023 geschafft. Tatsächlich könnten die Kameras kaum unterschiedlicher sein: Von kostenlos bis 70.000 Euro, von Ultra-...

// 09:10 Sa, 23. Dez 2023von Rob

Meinung

Midjourney trifft Pika Labs: Generative KI -Videos - Was geht, was kommt?

Seitdem Midjourney oder Stable Diffusion fotorealistische Bilder generieren kann, will man natürlich auch realistische Bewegungen "digital erträumen". Doch das erweist sich für ...

// 10:22 Fr, 29. Sep 2023von Rudi Schmidts

zur Artikelübersicht >

Aktuelle News //

News

Kostenlose 3D-Suite Blender 5.0 ist da: Meilenstein mit vielen Neuerungen für 3D, Animation und Postpro

Pünktlich zum Jahresende legt die Blender Foundation einen kleinen Knaller auf den digitalen Content-Creation-Tisch: Die Version 5.0 der freien 3D-Suite ist ab sofort verfügbar. .....

// 11:06 Mi, 19. Nov 2025von Rudi Schmidts

News

Mobile Video-Beleuchtung Nanlite Cookie und Cookie-S - Kompakte USB-C-Leuchten mit doppelseitigem Licht

Mit den neuen LED-Leuchten cookie und cookie-s erweitert Nanlite sein Portfolio um zwei besonders kompakte Lichtquellen, die speziell für mobile und improvisierte ...

// 09:41 Mi, 19. Nov 2025von Thomas Richter

zur Newsübersicht >