Googles DeepMind hat Genie 3 vorgestellt, einen interaktiven Weltengenerator, der per Prompt Welten erstellt, die dann in Echtzeit über die Cursorstasten erkundet werden können - ganz ähnlich wie im berühmten Holodeck von Star Trek. So ein offenes Weltmodell ist in mehrfacher Hinsicht revolutionär, denn Google hat in der dritten Generation seines World Building Models gleich mehrere Probleme gelöst.
Konsistente interaktive Welten
So sind die generierten Welten jetzt sehr konsistent. Das Modell besitzt ein "Gedächtnis", d. h. die Bilder werden zwar ständig neu live generiert, aber die Welt wird nicht ständig völlig neu erstellt, sondern ein einmal besuchtes Objekt bzw. ein Ort ist bei einem zweiten Besuch immer noch identisch – was fundamental wichtig ist für das Gefühl, eine andere Welt zu erkunden. Genie 3 ist zwar nicht perfekt (das Gedächtnis umfasst nur die letzte Minute, die ganze Umgebung immerhin mehrere Minuten), aber schon besser als bisherige Modelle.
Zusätzlich zur ganzen Welt können auch spezifische Objekte gepromptet werden, wie hier etwa ein Gorilla im roten Frack:
Beeindruckend ist auch die Qualität der in Echtzeit erzeugten Bilder – das Live-Video besitzt eine Auflösung von 720p (1.280 x 720 Pixel) bei einer Bildwiederholungsrate von 20-24 Frames pro Sekunde. Auch bei schneller Bewegung sind in den Demovideos keine Fehler zu entdecken – sie geben tatsächlich das Gefühl, in einer anderen Welt zu wandern, denn die erzeugten Welten sehen nahtlos aus in allen Richtungen.
Genie 3 "versteht" die Welt mitsamt aller physikalischen Gesetze, ganz wie Video-KIs wie Veo 3 oder Sora, und kann so Räumlichkeit täuschend simulieren. Das Modell "weiß", dass Wasser Licht spiegelt und bei Berührung Wellen schlägt, wie Wellen sich verhalten, wenn sie auf feste Objekte treffen, wie Objekte sich bei Kollision verhalten, abhängig von ihrem relativen Gewicht und ihrem Material, wie etwa bei der Kollision mit einem der Lampions im ersten Clip oben.
Neben echten Welten können aber genauso gut auch fantastische Traumwelten generiert und erkundet werden. Der Fantasie sind dabei wie schon bei den Bild- und Video-KIs keine Grenzen gesetzt bezüglich Ort, Stil und zusätzlichen Objekten:
Hier das zugehörige Prompt:
Ein lebendiger 3D-Stil, ein entzückendes, flauschiges Wesen, das über eine leuchtende Regenbogenbrücke in einer fantastischen Landschaft springt. Die Kreatur ist klein und kompakt, mit einem Fell, das die warmen Farbtöne eines Sonnenaufgangs imitiert – Orange-, Gelb- und Rosatöne, die nahtlos ineinander übergehen. Ihr auffälligstes Merkmal ist ein Paar großer, aufgerichteter Ohren, geformt wie die eines Deutschen Schäferhundes, was einen verspielten Kontrast zu ihrer ansonsten runden Form bildet.
Während sie auf vier kurzen Beinen über den Regenbogen rennt, scheint ihr Fell zu fließen und zu schwingen, was ihr ein Gefühl von Dynamik und Energie verleiht. Die Regenbogenbrücke spannt sich anmutig durch eine verspielte Landschaft, vielleicht mit schwebenden Inseln, leuchtender Flora und wirbelnden Wolken.
#Genie3 is a real, interactive, playable experience.
— Aleksander Holynski (@holynski_) August 5, 2025
We&re having so much fun with it at work---in between meetings, during breaks.
Here&s @RuiqiGao, @joeaortiz, @ChrisWu6080 following a pack of polar bears through a New York City street! Check out more on the webpage:… pic.twitter.com/D9uyMZHo11
Die Beleuchtung ist hell und fröhlich und taucht die Kreatur und ihre Umgebung in ein warmes Licht. Der Gesamteindruck ist von Freude, Staunen und grenzenloser Energie geprägt – er fängt den verspielten Geist der Kreatur und die magische Natur der Welt, in der sie lebt, perfekt ein. Dieses Bild weckt ein Gefühl kindlicher Fantasie und lädt den Betrachter ein, sich die Abenteuer vorzustellen, die dieses charmante Wesen in seinem fantastischen Reich noch erwarten.
Die Welten sind zudem nicht statisch generiert, sondern es können auch dynamische Ereignisse per Prompt geskriptet werden, wie etwa ein sich änderndes Wetter, neu auftauchende Objekte oder Charaktere. Weitere Beispiele zeigen auch eine Interaktion mit der Umwelt, die dauerhafte Spuren hinterlassen:
Wozu?
// Top-News auf einen Blick:
- Überraschung: Kyno 1.9 ist erschienen mit Apple Silicon Support und neuem Design
- Wiegt die DJI Mini 5 Pro wirklich unter 250 Gramm?
- RØDE senkt Preise für seine RØDE Wireless Mikrofonsysteme radikal
- iPhone 17 Pro: ProRes RAW, Genlock, Apple Log 2 und Blackmagic ProDock für Filmer
- Canon Cinema EOS C50 Sensor-Bildqualität - Debayering, Rolling Shutter und Dynamik
Und natürlich ergeben sich auch fürs (KI-)Filmmaking völlig neue Möglichkeiten, kann doch eine virtuelle Welt erkundet werden nach dem optimalen Drehort und Kamerawinkel oder Kamerafahrten exakt geplant werden.
Um sich noch mehr nach dem Holodeck anzufühlen, ist wahrscheinlich angesichts der noch nicht so weit entwickelten holografischen Lösungen die Reise per VR-Brille schon ausreichend immersiv dank ihrer 3D-Interaktivität.
Es sind auch viele weitere Anwendungsfälle denkbar in den Bereichen Lernen, Industrie und etwa Tourismus.

Ein Schritt auf dem Weg zur AGI
Ein besonders wichtiges Anwendungszenario stellt Genie 3 als Simulationsumgebung für KI-Agenten dar, die anhand der Interaktion mit der künstlichen Welt Erfahrungen für die echte Welt sammeln können – viel weniger aufwendig als über eine echte physikalische Interaktion per Roboter. Der Agent kann die visuelle Welt von Genie 3 und ihre Objekte erkennen und Kommandos an Genie 3 senden und so damit interagieren und in der Welt navigieren – z. B. um bestimmte Gegenstände zu identifizieren oder auch um zu lernen, um Hindernisse herumzunavigieren.
One nice thing you can do with an interactive world model, look down and see your footwear ... and if the model understands what puddles are. Genie 3 creation. pic.twitter.com/OZfsWxYe03
— Matt McGill (@MattMcGill_) August 5, 2025
Anhand solcher künstlichen "echten" Umgebungen können Agenten viel schneller trainiert werden als in der Realität (wie etwa DeepMinds universale Spiele-KI Alpha Zero, die sich selbst durch Millionen von Durchgängen in allen möglichen Games trainieren konnte) – 100fach und parallel. Ein wichtiger Schritt auf dem Weg zur AGI, zur Künstlichen Intelligenz, die übermenschliche oder mindestens menschliche kognitive Fähigkeiten in allen intellektuellen Aufgabenbereichen besitzt und mit die echte Welt "versteht" und mit ihr interagieren kann.
Was kann Genie 3 (noch) nicht?
DeepMind gibt aber auch Auskunft über die Beschränkungen, die Genie 3 noch aufweist. So ist etwa der Handlungsspielraum der Agenten derzeit begrenzt, da sie nur eine eingeschränkte Anzahl direkter Aktionen ausführen können. Auch die realistische Interaktion und Simulation mehrerer unabhängiger Agenten in gemeinsamen Umgebungen stellt weiterhin eine Herausforderung dar. Zudem kann Genie 3 reale geografische Orte nicht mit vollständiger Genauigkeit darstellen. Und eine klare und lesbare Textdarstellung gelingt meist nur, wenn der entsprechende Text bereits in der Eingabebeschreibung enthalten ist. Schließlich ist die Dauer der möglichen Interaktionen aktuell auf einige Minuten begrenzt und erlaubt noch keine längeren, durchgehenden Simulationen. Das sind aber alles Beschränkungen, die in den nächsten Generationen vermutlich Stück um Stück fallen werden.
Momentan können nur einige ausgesuchte Nutzer Genie 3 ausprobieren. Nachfolgend teilt einer von ihnen seine Erfahrungen:
Special thanks to @GoogleDeepMind for inviting me to try out Genie 3. I&m excited to share my thoughts on this early research prototype and also some of my live recordings below:
— Tejas Kulkarni (@tejasdkulkarni) August 5, 2025
I spent the whole day playing with the system and when it works, it is truly mind blowing🤯. It is… pic.twitter.com/JPW5sPEeF5
Wer mehr wissen will - hier ein rund 1-stündiges Interview mit zwei Entwicklern von Genie 3:
Genie 3 from @GoogleDeepMind is the most mind-blowing technology I&ve ever seen since starting MLST. This is our exclusive in-person interview with @jparkerholder and @shlomifruchter pic.twitter.com/k0fGNJ2cul
— Machine Learning Street Talk (@MLStreetTalk) August 5, 2025
UPDATE 7. August: Interessanterweise kann anstatt eines Prompts auch ein Video als Input für Genie 3 verwendet werden, Genie 3 ermöglicht dann die freie Navigation in der "Welt" des Videos. Damit ergibt sich die fantastische Möglichkeit, ab sofort jede beliebige Filmwelt zu "besuchen" und so zum Beispiel eine Szene seines Lieblingsfilms zu durchwandern:
Yesterday we announced Genie 3. One feature of the model that's especially fun to play with is starting worlds from existing videos. Here's a drone shot generated by Veo 3, with me taking control mid-flight. https://t.co/M4iRZEF6LR pic.twitter.com/tyBQNhLF1I
— Jakob Bauer (@jkbr_ai) August 6, 2025