Logo Logo
/// News

Nvidia Perfusion - Personen und Objekte in KI-Modelle einfach einbringen

[11:44 Di,8.August 2023 [e]  von ]    

Und schon wieder ein großer Fortschritt in der generativen KI-Forschung, den Nvidia zur Siggraph 2023 offiziell präsentieren will und wird: "Perfusion" nennt sich eine neue Text zu Bild (Text-to-Imange, T2I)-Individualisierungs-Methode, die es besonders einfach erlauben soll, eigene Personen und Objekte in einen KI-Bildgenerator "einzutrainieren".

Bislang war es nur mit Spezialwissen möglich, KI-Modelle wie Stable Diffusion um eigene Inhalte zu erweitern. Über sogenanntes Lora-Finetuning lässt sich beispielsweise die eigene Person in künstlich geschaffenen Bildern über einen Text-Prompt ins Modell einbringen. Das neuronale Netz muss dafür anhand von Beispielfotos und den richtigen Prompt die zusätzliche Person lernen, was bislang jedoch nicht mit einem einfachen Mausklick zu bewerkstelligen war. Außerdem muss man die Finetuning-Änderungen an den Gewichten irgendwie als eine Art Patch ins Modell bringen, was bei Cloud-Anwendungen manchmal mit sehr großen Datentransfers für die neuen, veränderten Gewichte einhergeht.



All das soll nun laut Nvidias Perfusion-Paper in Zukunft in mehrfacher Hinsicht leichter werden. So sollen eigene Objekte auf einer einzigen A100 GPU (mit ca. 27GB Speicherverbrauch) in nur 4 Minuten hinzutrainiert werden können. Zugleich soll die Modifikations-Datei mit den veränderten Gewichten gerade einmal 100 Kilobyte (!!, richtig gelesen) klein sein. Die Personalisierung eines Diffusion-Modells für die eigenen Anwendungsfälle sollte hiermit in naher Zukunft für jedermann also einfach möglich werden.

Perfusion1
Nvidia Perfusion



Auch die Anwendung ist denkbar einfach. Man präsentiert dem Netz einfach ein paar Photos und liefert dazu einen Text-Prompt, der beschreibt, welche typische Kategorie in den Bildern zu sehen ist, direkt gefolgt von einem Stern (*).

Dieser Begriff mit dem Stern lässt sich anschließend im Diffusions-Modell einfach mit den übrigen Prompt-Worten zur Bildbeschreibung nutzen. Es sollen sogar mehrere Objekte auf diesem Wege "eintrainiert" werden können.

Die Schlüsselinnovation in Perfusion nennt sich "Key-Locking". Bei diesem Ansatz werden neue, vom Benutzer gewünschte Konzepte, wie z. B. eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer breiteren Kategorie verknüpft. So wird beispielsweise die Katze mit der allgemeinen Vorstellung einer "Katze" verknüpft. Diese Technik ermöglicht eine präzisere Anpassung, wobei das Spezielle der hinzu trainierten Objekte in der Darstellung der allgemeinen Kategorie berücksichtigt wird. Es ist also anzunehmen, dass in der Folge alle Katzen der hinzutrainierten Katze stark ähneln werden. Was ein Training mehrerer unterschiedlicher Katzen oder Personen erschweren könnte.

Der breiten, lokalen Anwendung wird trotz einer zeitnahen Veröffentlichung des Codes jedoch die benötigte GPU-Speichergröße von 27GB entgegenstehen. Denn die größten Consumer-GPUs von Nvidia werden aktuell nur mit maximal 24GB ausgeliefert und sind damit knapp zu klein, um Perfusion auszuprobieren.

Genau auf solche kommenden Probleme hatten wir zuletzt in einem speziellen SlashCAM Artikel im April 2023 hingewiesen. Dieser ist leider aktueller denn je, nur mit dem Unterschied, dass AMD tatsächlich in der Software-Unterstützung mächtig aufholt. Doch gerade Perfusion wird mit Sicherheit zuerst einmal nur auf Nvidias Karten laufen...

Link mehr Informationen bei research.nvidia.com

  
[4 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
iasi    20:55 am 8.8.2023
Das ist dann die Weiterentwicklung des Pflasters im Raw-Editor. Schon eine feine Sache. Früher musste man noch aufwändig stempeln.
macaw    19:36 am 8.8.2023
Firefly in Photoshop ist auch krass gut zum entfernen ungewollter Objekte, hab ich soeben das erste Mal für zwei Werbejobs benutzt...
medienonkel    12:44 am 8.8.2023
Das hier angesprochene Expertenwissen ist so speziell nun auch wieder nicht. Zu loras gibt es dutzende gute Tutorials.
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildModulares SmallRig CT190 Videostativ für 154,90 Euro verfügbar (inkl.Monopod) bildBody-Scans in Hollywood - Statistenjobs auf der roten Liste?


verwandte Newsmeldungen:
KI:

Google zeigt KI-Bullet-Time Effekt inkl. Slow Motion, Blur und Stabilizer - DynIBaR 30.September 2023
Drehbuchstreik in Hollywood endet nach 148 Tagen mit gutem Deal für Autoren - auch in Punkto KI 27.September 2023
Google Pixel 8 (Pro) - Neue Stufe der "computational" Videografie durch KI? 25.September 2023
YouTube: neue Editing-App verfügbar - und bald kommen die Video-KI-Tools 22.September 2023
DALL-E 3 ist da und generiert exaktere KI-Bilder inkl. Text dank ChatGPT-Integration 21.September 2023
Videoclip: Adobe Premiere Pro erklärt: Mit KI Pausen und Füllwörter schnell entfernen u.v.m. 19.September 2023
Adobe führt Credit-basiertes Modell für generative KI ein (und die Creative Cloud wird teurer) 18.September 2023
alle Newsmeldungen zum Thema KI

Computer:

Intel präsentiert Thunderbolt 5 - drei mal schneller und bis zu 240W Power Delivery 13.September 2023
AMD mit neuen Mittelklasse GPUs - Radeon RX 7700 XT und die RX 7800 XT 29.August 2023
Neue Workstation-Grafikkarten von Nvidia - ausgebremster Speicher und kein NVLink 10.August 2023
Zwei neue günstige Workstation-Grafikkarten von AMD - Radeon PRO W7600 und W7500 7.August 2023
Neue GPU-Benchmarks: AMD bei Stable Diffusion nun auf Augenhöhe mit Nvidia 6.August 2023
Apple, Adobe, Autodesk und Nvidia wollen Pixars USD für mehr 3D-Inhalte erweitern 2.August 2023
Nvidia 4090 Ti oder Titan (schon wieder) gesichtet 30.Juni 2023
alle Newsmeldungen zum Thema Computer


[nach oben]

















passende Forenbeiträge zur News:

Archive

2023

Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2022
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 2.Oktober 2023 - 16:54
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*