Das Holodeck ist da Google DeepMind Genie 3 - interaktive Welten in Echtzeit generieren

Googles DeepMind hat Genie 3 vorgestellt, einen interaktiven Weltengenerator, der per Prompt Welten erstellt, die dann in Echtzeit über die Cursorstasten erkundet werden können - ganz ähnlich wie im berühmten Holodeck von Star Trek. So ein offenes Weltmodell ist in mehrfacher Hinsicht revolutionär, denn Google hat in der dritten Generation seines World Building Models gleich mehrere Probleme gelöst.






Konsistente interaktive Welten

So sind die generierten Welten jetzt sehr konsistent. Das Modell besitzt ein "Gedächtnis", d. h. die Bilder werden zwar ständig neu live generiert, aber die Welt wird nicht ständig völlig neu erstellt, sondern ein einmal besuchtes Objekt bzw. ein Ort ist bei einem zweiten Besuch immer noch identisch – was fundamental wichtig ist für das Gefühl, eine andere Welt zu erkunden. Genie 3 ist zwar nicht perfekt (das Gedächtnis umfasst nur die letzte Minute, die ganze Umgebung immerhin mehrere Minuten), aber schon besser als bisherige Modelle.





Zusätzlich zur ganzen Welt können auch spezifische Objekte gepromptet werden, wie hier etwa ein Gorilla im roten Frack:





Beeindruckend ist auch die Qualität der in Echtzeit erzeugten Bilder – das Live-Video besitzt eine Auflösung von 720p (1.280 x 720 Pixel) bei einer Bildwiederholungsrate von 20-24 Frames pro Sekunde. Auch bei schneller Bewegung sind in den Demovideos keine Fehler zu entdecken – sie geben tatsächlich das Gefühl, in einer anderen Welt zu wandern, denn die erzeugten Welten sehen nahtlos aus in allen Richtungen.



Genie 3 "versteht" die Welt mitsamt aller physikalischen Gesetze, ganz wie Video-KIs wie Veo 3 oder Sora, und kann so Räumlichkeit täuschend simulieren. Das Modell "weiß", dass Wasser Licht spiegelt und bei Berührung Wellen schlägt, wie Wellen sich verhalten, wenn sie auf feste Objekte treffen, wie Objekte sich bei Kollision verhalten, abhängig von ihrem relativen Gewicht und ihrem Material, wie etwa bei der Kollision mit einem der Lampions im ersten Clip oben.



Neben echten Welten können aber genauso gut auch fantastische Traumwelten generiert und erkundet werden. Der Fantasie sind dabei wie schon bei den Bild- und Video-KIs keine Grenzen gesetzt bezüglich Ort, Stil und zusätzlichen Objekten:





Hier das zugehörige Prompt:


Ein lebendiger 3D-Stil, ein entzückendes, flauschiges Wesen, das über eine leuchtende Regenbogenbrücke in einer fantastischen Landschaft springt. Die Kreatur ist klein und kompakt, mit einem Fell, das die warmen Farbtöne eines Sonnenaufgangs imitiert – Orange-, Gelb- und Rosatöne, die nahtlos ineinander übergehen. Ihr auffälligstes Merkmal ist ein Paar großer, aufgerichteter Ohren, geformt wie die eines Deutschen Schäferhundes, was einen verspielten Kontrast zu ihrer ansonsten runden Form bildet.



Während sie auf vier kurzen Beinen über den Regenbogen rennt, scheint ihr Fell zu fließen und zu schwingen, was ihr ein Gefühl von Dynamik und Energie verleiht. Die Regenbogenbrücke spannt sich anmutig durch eine verspielte Landschaft, vielleicht mit schwebenden Inseln, leuchtender Flora und wirbelnden Wolken.





Die Beleuchtung ist hell und fröhlich und taucht die Kreatur und ihre Umgebung in ein warmes Licht. Der Gesamteindruck ist von Freude, Staunen und grenzenloser Energie geprägt – er fängt den verspielten Geist der Kreatur und die magische Natur der Welt, in der sie lebt, perfekt ein. Dieses Bild weckt ein Gefühl kindlicher Fantasie und lädt den Betrachter ein, sich die Abenteuer vorzustellen, die dieses charmante Wesen in seinem fantastischen Reich noch erwarten.







Die Welten sind zudem nicht statisch generiert, sondern es können auch dynamische Ereignisse per Prompt geskriptet werden, wie etwa ein sich änderndes Wetter, neu auftauchende Objekte oder Charaktere. Weitere Beispiele zeigen auch eine Interaktion mit der Umwelt, die dauerhafte Spuren hinterlassen:






Wozu?

Durch ihre Interaktivität besitzen die Welten eine ganz andere Immersion als reine Videos, die ja jetzt auch schon per Video-KI erzeugt werden können. Die Anwendungsmöglichkeiten sind natürlich vielfältig, angefangen von Spielen, die in einer beliebigen, vom User gewünschten Welt situiert sein können, über Reisen in andere Welten oder Zeiten wie etwa hier zum Palast von Knossos:



Und natürlich ergeben sich auch fürs (KI-)Filmmaking völlig neue Möglichkeiten, kann doch eine virtuelle Welt erkundet werden nach dem optimalen Drehort und Kamerawinkel oder Kamerafahrten exakt geplant werden.



Um sich noch mehr nach dem Holodeck anzufühlen, ist wahrscheinlich angesichts der noch nicht so weit entwickelten holografischen Lösungen die Reise per VR-Brille schon ausreichend immersiv dank ihrer 3D-Interaktivität.



Es sind auch viele weitere Anwendungsfälle denkbar in den Bereichen Lernen, Industrie und etwa Tourismus.



Google DeepMind Genie 3
Google DeepMind Genie 3



Ein Schritt auf dem Weg zur AGI

Ein besonders wichtiges Anwendungszenario stellt Genie 3 als Simulationsumgebung für KI-Agenten dar, die anhand der Interaktion mit der künstlichen Welt Erfahrungen für die echte Welt sammeln können – viel weniger aufwendig als über eine echte physikalische Interaktion per Roboter. Der Agent kann die visuelle Welt von Genie 3 und ihre Objekte erkennen und Kommandos an Genie 3 senden und so damit interagieren und in der Welt navigieren – z. B. um bestimmte Gegenstände zu identifizieren oder auch um zu lernen, um Hindernisse herumzunavigieren.





Anhand solcher künstlichen "echten" Umgebungen können Agenten viel schneller trainiert werden als in der Realität (wie etwa DeepMinds universale Spiele-KI Alpha Zero, die sich selbst durch Millionen von Durchgängen in allen möglichen Games trainieren konnte) – 100fach und parallel. Ein wichtiger Schritt auf dem Weg zur AGI, zur Künstlichen Intelligenz, die übermenschliche oder mindestens menschliche kognitive Fähigkeiten in allen intellektuellen Aufgabenbereichen besitzt und mit die echte Welt "versteht" und mit ihr interagieren kann.






Was kann Genie 3 (noch) nicht?

DeepMind gibt aber auch Auskunft über die Beschränkungen, die Genie 3 noch aufweist. So ist etwa der Handlungsspielraum der Agenten derzeit begrenzt, da sie nur eine eingeschränkte Anzahl direkter Aktionen ausführen können. Auch die realistische Interaktion und Simulation mehrerer unabhängiger Agenten in gemeinsamen Umgebungen stellt weiterhin eine Herausforderung dar. Zudem kann Genie 3 reale geografische Orte nicht mit vollständiger Genauigkeit darstellen. Und eine klare und lesbare Textdarstellung gelingt meist nur, wenn der entsprechende Text bereits in der Eingabebeschreibung enthalten ist. Schließlich ist die Dauer der möglichen Interaktionen aktuell auf einige Minuten begrenzt und erlaubt noch keine längeren, durchgehenden Simulationen. Das sind aber alles Beschränkungen, die in den nächsten Generationen vermutlich Stück um Stück fallen werden.



Momentan können nur einige ausgesuchte Nutzer Genie 3 ausprobieren. Nachfolgend teilt einer von ihnen seine Erfahrungen:





Wer mehr wissen will - hier ein rund 1-stündiges Interview mit zwei Entwicklern von Genie 3:








UPDATE 7. August: Interessanterweise kann anstatt eines Prompts auch ein Video als Input für Genie 3 verwendet werden, Genie 3 ermöglicht dann die freie Navigation in der "Welt" des Videos. Damit ergibt sich die fantastische Möglichkeit, ab sofort jede beliebige Filmwelt zu "besuchen" und so zum Beispiel eine Szene seines Lieblingsfilms zu durchwandern:




Ähnliche News //
Umfrage
    Generative Video-KI: Hast du ein Abo?







    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash