KI-Video Nonstop PixVerse-R1 - interaktive Welt per Prompt in Echtzeit generieren und erkunden

Das chinesische Video-KI-Startup Aishi Technology hat PixVerse-R1 vorgestellt, ein KI-Weltmodell, das Video, Bilder, Text und Audio zusammen verarbeitet. Anders als klassische generative KIs trennt es diese unterschiedlichen Medien nicht in einzelne Verarbeitungsschritte, sondern erzeugt einen durchgehenden audiovisuellen Strom. So kann Video in einer Auflösung von bis zu 1080p interaktiv per Prompt in Echtzeit erzeugt werden, das ohne spürbare Verzögerung auf Anweisungen - wie etwa Kamerabewegungen oder Änderungen der Objekte im Bild - reagiert und nicht auf eine feste Cliplänge begrenzt ist (die Democlips allerdings sind maximal 40 Sekunden lang).


PixVerse-R1
PixVerse-R1


Der Prozess fühlt sich dem Anschein nach etwas an wie die Erkundung einer Phantasiewelt, an deren Aussehen man selbst mitwirkt als Zuschauer und Schaffender - was dann schwankt zwischen einer Traumerfahrung (auch wegen der KI-typischen morphenden Übergänge bzw. Motivwechsel) und einem Spiel. Google hatte bereits im letzten August mit DeepMind Genie 3 einen ähnlichen interaktiven Weltgenerator vorgestellt, allerdings noch ohne öffentlichen Zugang. PixVerse-R1 dagegen kann jetzt schon selbst ausprobiert werden.






Technisch basiert das System auf einem multimodal trainierten Modell, das alle Eingaben als kontinuierlichen Tokenstrom behandelt (Token sind interne Darstellungseinheiten für Inhalte). Anders als traditionelle clipbasierte Diffusionsmodelle nutzt PixVerse-R1 eine autoregressive Framesynthese: Jedes neue Bild wird aus dem vorherigen Zustand vorhergesagt. Ein integriertes Gedächtnis speichert dabei relevante Informationen aus früheren Frames, um die zeitliche Kohärenz zu erhöhen – also die Konsistenz der Darstellung von Objekten und Szenen über längere Zeit.


PixVerse-R1
PixVerse-R1



Um Echtzeit zu ermöglichen, wurde die Berechnung stark vereinfacht. Eine optimierte Sampling-Pipeline reduziert die nötigen Rechenschritte auf einen bis zu vier pro Frame. Dadurch sinkt die Latenz (Verzögerung) deutlich, ohne die Bildqualität vollständig zu opfern. Das System verhält sich damit eher wie eine laufende Simulation als wie klassische Videoproduktion mit einzelnen Renderjobs - was allerdings auch der Bildqualität anzumerken ist.



Die Anwendungsmöglichkeiten sind natürlich vielfältig, angefangen von Spielen, die in einer beliebigen, vom User gewünschten Welt situiert sein können, über Reisen in andere Welten oder Zeiten oder einfach interaktiv erschaffene Traumwelten, die erfahren werden können. Und natürlich ergeben sich auch fürs (KI-)Filmmaking völlig neue Möglichkeiten, kann doch eine virtuelle Welt erkundet werden nach dem optimalen Drehort und Kamerawinkel oder Kamerafahrten exakt geplant werden.



PixVerse-R1
PixVerse-R1




Gleichzeitig gibt es Grenzen. Über sehr lange Laufzeiten können sich kleine Vorhersagefehler aufaddieren und Echtzeit erfordert stets einen Kompromiss zwischen physikalischer Genauigkeit und Rechenaufwand. PixVerse-R1 eignet sich daher (momentan) vor allem für Anwendungen, wo Interaktivität, Persistenz und geringe Latenz wichtiger sind als maximale Präzision der Promptumsetzung und Bildqualität.


Ähnliche News //
Umfrage
    Wieviel RAM nutzt Du für Videoschnitt / Grading?







    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash