Nano Banana für Video Google Gemini Omni - aufs VFX-Editing spezialisierte Video-KI

Google Deepmind hat mit Gemini Omni ein neues multimodales VideoKI-Modell vorgestellt, das neben der Generierung von Videos explizit darauf spezialisiert ist, bestehende Videos objektorientiert zu bearbeiten - das macht es auch für das VFX-Editing von echten Videos interessant. Google bezeichnet Omni als Nano Banana für Video - wie dieses kombiniert es eine Video-KI (Googles Veo) mit der Gemini-KI, welche ein grundsätzliches Verständnis der physikalischen Welt und ihrer sprachlichen Repräsentation liefert, um Prompts zu verstehen und realistisch umzusetzen.






Multimodaler Input

Omni ist grundlegend multimodal, d.h. als Input werden sowohl Videos als auch Bilder, Audio (vorerst allerdings nur Sprache) und Text akzeptiert. Wobei das Textprompt sowohl dazu dient, die gewünschte Szene und Handlung zu beschreiben, als auch die anderen Inputmedien zu verknüpfen. Die Omni Oberfläche dient dabei ebenso als Startpunkt zur Eingabe von Referenzmedien und Generierung eines ersten (bis zu 10 Sekunden langen) Clips, wie danach zur objektorientierten weiteren Bearbeitung per Textinput. Damit das sinnvoll gemacht werden kann, hat Google bei Omni großen Wert auf die Konsistenz der Charaktere bzw. Objekte gelegt, damit diese nicht - wie sonst oft - nach mehreren Bearbeitungsschritten immer weiter bis zur Unkenntlichkeit verändert werden.







Für Filmemacher: Objektorientierte VFX-Bearbeitung

Diese Fähigkeit ist auch für "echte" Filmer interessant: ein vorgegebenes Video kann per Prompt verändert werden, im Stil oder der Perspektive der Darstellung ebenso wie auf der Ebene der Objekte, d.h. es können Personen (oder andere Objekte) eingefügt und zum Verschwinden gebracht, der Kamerawinkel oder die Beleuchtung kann nachträglich geändert oder auch der Hintergrund oder andere Objekte ausgetauscht werden. Gezeigt wird diese Fähigkeit in den Demovideos auf eher fantastische Art und Weise, aber diese Art der Bearbeitung kann natürlich auch viel subtiler erfolgen und so womöglich auch wegen kleiner Details misslungene Drehs retten.










Text- und Physikdarstellung

Omni brilliert (zumindest in ersten Beispielvideos) in einem bisher oft schwierigen Gebiet, der Darstellung komplexer Texte in Videos und im Erzeugen physikalisch korrekter Interaktionen zwischen Objekten oder dem Verhalten von Objekten in Medien wie etwa Flüssigkeiten.






Und hier noch ein besonders komplizierter Test des Text- und Physikverständnisses von Omni mittels des folgenden Prompts:

"Eine dramatische Lesung von ‚Death by Water‘ aus ‚The Wasteland‘, vorgetragen von einem Mann, der Knoblauchbrot isst, während er auf einem Einrad auf einer kleinen Plattform über einem brodelnden Meer aus Tomatensoße balanciert, in dessen Mitte ein Fleischbällchen mit strahlend blauen Augen und einem Zylinder sitzt“"






Google Omni (Flash) vs Seedance 2.0

In den sozialen Medien kursieren schon mehrere Clips, die Omni mit dem in vielen Belangen, wie zum Beispiel Darstellung von menschlicher Bewegung, aktuellen Topmodell, dem chinesischen Seedance 2.0 vergleichen. Dabei schneidet Omni klar schlechter ab, was deutlich macht, dass seine Stärke eher in der Bearbeitung als der Generierung liegt. Allerdings handelt es sich bei dem aktuellen Modell nur um die Flash-Version von Omni, also eine auf Effizienz getrimmte Variante.






Wo gibt es Omni?

Zur Verfügung steht Google Omni Flash als erstes Modell der Omni-Familie ab sofort in der Gemini-App, in Google Flow und in den YouTube Shorts. In Zukunft sollen als Output neben Video auch Bild und Audio unterstützt werden. Alle mit Omni erstellten Videos werden mit dem digitalen Wasserzeichen SynthID versehen. Die so gekennzeichneten Videos lassen sich über die Gemini App, Gemini in Chrome und die Google Suche als KI-generiert identifizieren.




UPDATE 29.Mai: Einem Bericht von Golem zufolge ist die neue Videobearbeitungsfunktion von Omni nicht in Europa verfügbar - es ist aber nicht klar, ob das nur temporär gilt und auch für den Zugriff über über andere Plattformen.
Ähnliche News //
Umfrage
    Welche Kameraauflösung ist für Dich aktuell der Sweet Spot?






    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash