Das chinesische Video-KI-Startup Aishi Technology hat PixVerse-R1 vorgestellt, ein KI-Weltmodell, das Video, Bilder, Text und Audio zusammen verarbeitet. Anders als klassische generative KIs trennt es diese unterschiedlichen Medien nicht in einzelne Verarbeitungsschritte, sondern erzeugt einen durchgehenden audiovisuellen Strom. So kann Video in einer Auflösung von bis zu 1080p interaktiv per Prompt in Echtzeit erzeugt werden, das ohne spürbare Verzögerung auf Anweisungen - wie etwa Kamerabewegungen oder Änderungen der Objekte im Bild - reagiert und nicht auf eine feste Cliplänge begrenzt ist (die Democlips allerdings sind maximal 40 Sekunden lang).

Der Prozess fühlt sich dem Anschein nach etwas an wie die Erkundung einer Phantasiewelt, an deren Aussehen man selbst mitwirkt als Zuschauer und Schaffender - was dann schwankt zwischen einer Traumerfahrung (auch wegen der KI-typischen morphenden Übergänge bzw. Motivwechsel) und einem Spiel. Google hatte bereits im letzten August mit DeepMind Genie 3 einen ähnlichen interaktiven Weltgenerator vorgestellt, allerdings noch ohne öffentlichen Zugang. PixVerse-R1 dagegen kann jetzt schon selbst ausprobiert werden.
Technisch basiert das System auf einem multimodal trainierten Modell, das alle Eingaben als kontinuierlichen Tokenstrom behandelt (Token sind interne Darstellungseinheiten für Inhalte). Anders als traditionelle clipbasierte Diffusionsmodelle nutzt PixVerse-R1 eine autoregressive Framesynthese: Jedes neue Bild wird aus dem vorherigen Zustand vorhergesagt. Ein integriertes Gedächtnis speichert dabei relevante Informationen aus früheren Frames, um die zeitliche Kohärenz zu erhöhen – also die Konsistenz der Darstellung von Objekten und Szenen über längere Zeit.
// Top-News auf einen Blick:
- RevCut - schlankes Review & Deliver-Tool für Freelancer
- Leica steht angeblich zum Verkauf, u.a. China interessiert
- DJIs neue 360° Drohne Avata 360 - kommt sie im Februar für nur 999 Dollar?
- NVIDIA entwickelt N1 ARM-Chip mit integrierter RTX 5070 für Laptops
- Benro NE1 - Elektronischer variabler ND-Filter demnächst im Crowdfunding
- Nikon ZR als Webcam oder Streaming-Kamera einrichten und nutzen

Um Echtzeit zu ermöglichen, wurde die Berechnung stark vereinfacht. Eine optimierte Sampling-Pipeline reduziert die nötigen Rechenschritte auf einen bis zu vier pro Frame. Dadurch sinkt die Latenz (Verzögerung) deutlich, ohne die Bildqualität vollständig zu opfern. Das System verhält sich damit eher wie eine laufende Simulation als wie klassische Videoproduktion mit einzelnen Renderjobs - was allerdings auch der Bildqualität anzumerken ist.
Die Anwendungsmöglichkeiten sind natürlich vielfältig, angefangen von Spielen, die in einer beliebigen, vom User gewünschten Welt situiert sein können, über Reisen in andere Welten oder Zeiten oder einfach interaktiv erschaffene Traumwelten, die erfahren werden können. Und natürlich ergeben sich auch fürs (KI-)Filmmaking völlig neue Möglichkeiten, kann doch eine virtuelle Welt erkundet werden nach dem optimalen Drehort und Kamerawinkel oder Kamerafahrten exakt geplant werden.

Gleichzeitig gibt es Grenzen. Über sehr lange Laufzeiten können sich kleine Vorhersagefehler aufaddieren und Echtzeit erfordert stets einen Kompromiss zwischen physikalischer Genauigkeit und Rechenaufwand. PixVerse-R1 eignet sich daher (momentan) vor allem für Anwendungen, wo Interaktivität, Persistenz und geringe Latenz wichtiger sind als maximale Präzision der Promptumsetzung und Bildqualität.


















