[11:44 Di,8.August 2023 [e] von Rudi Schmidts] |
Und schon wieder ein großer Fortschritt in der generativen KI-Forschung, den Nvidia zur Siggraph 2023 offiziell präsentieren will und wird: "Perfusion" nennt sich eine neue Text zu Bild (Text-to-Imange, T2I)-Individualisierungs-Methode, die es besonders einfach erlauben soll, eigene Personen und Objekte in einen KI-Bildgenerator "einzutrainieren".
All das soll nun laut Nvidias ![]() ![]() Nvidia Perfusion Auch die Anwendung ist denkbar einfach. Man präsentiert dem Netz einfach ein paar Photos und liefert dazu einen Text-Prompt, der beschreibt, welche typische Kategorie in den Bildern zu sehen ist, direkt gefolgt von einem Stern (*). Dieser Begriff mit dem Stern lässt sich anschließend im Diffusions-Modell einfach mit den übrigen Prompt-Worten zur Bildbeschreibung nutzen. Es sollen sogar mehrere Objekte auf diesem Wege "eintrainiert" werden können. Die Schlüsselinnovation in Perfusion nennt sich "Key-Locking". Bei diesem Ansatz werden neue, vom Benutzer gewünschte Konzepte, wie z. B. eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer breiteren Kategorie verknüpft. So wird beispielsweise die Katze mit der allgemeinen Vorstellung einer "Katze" verknüpft. Diese Technik ermöglicht eine präzisere Anpassung, wobei das Spezielle der hinzu trainierten Objekte in der Darstellung der allgemeinen Kategorie berücksichtigt wird. Es ist also anzunehmen, dass in der Folge alle Katzen der hinzutrainierten Katze stark ähneln werden. Was ein Training mehrerer unterschiedlicher Katzen oder Personen erschweren könnte. Der breiten, lokalen Anwendung wird trotz einer zeitnahen Veröffentlichung des Codes jedoch die benötigte GPU-Speichergröße von 27GB entgegenstehen. Denn die größten Consumer-GPUs von Nvidia werden aktuell nur mit maximal 24GB ausgeliefert und sind damit knapp zu klein, um Perfusion auszuprobieren. Genau auf solche kommenden Probleme hatten wir zuletzt in einem ![]() ![]() |
![]() |