Google Deepmind hat mit Gemini Omni ein neues multimodales VideoKI-Modell vorgestellt, das neben der Generierung von Videos explizit darauf spezialisiert ist, bestehende Videos objektorientiert zu bearbeiten - das macht es auch für das VFX-Editing von echten Videos interessant. Google bezeichnet Omni als Nano Banana für Video - wie dieses kombiniert es eine Video-KI (Googles Veo) mit der Gemini-KI, welche ein grundsätzliches Verständnis der physikalischen Welt und ihrer sprachlichen Repräsentation liefert, um Prompts zu verstehen und realistisch umzusetzen.
Multimodaler Input
Omni ist grundlegend multimodal, d.h. als Input werden sowohl Videos als auch Bilder, Audio (vorerst allerdings nur Sprache) und Text akzeptiert. Wobei das Textprompt sowohl dazu dient, die gewünschte Szene und Handlung zu beschreiben, als auch die anderen Inputmedien zu verknüpfen. Die Omni Oberfläche dient dabei ebenso als Startpunkt zur Eingabe von Referenzmedien und Generierung eines ersten (bis zu 10 Sekunden langen) Clips, wie danach zur objektorientierten weiteren Bearbeitung per Textinput. Damit das sinnvoll gemacht werden kann, hat Google bei Omni großen Wert auf die Konsistenz der Charaktere bzw. Objekte gelegt, damit diese nicht - wie sonst oft - nach mehreren Bearbeitungsschritten immer weiter bis zur Unkenntlichkeit verändert werden.
Für Filmemacher: Objektorientierte VFX-Bearbeitung
Diese Fähigkeit ist auch für "echte" Filmer interessant: ein vorgegebenes Video kann per Prompt verändert werden, im Stil oder der Perspektive der Darstellung ebenso wie auf der Ebene der Objekte, d.h. es können Personen (oder andere Objekte) eingefügt und zum Verschwinden gebracht, der Kamerawinkel oder die Beleuchtung kann nachträglich geändert oder auch der Hintergrund oder andere Objekte ausgetauscht werden. Gezeigt wird diese Fähigkeit in den Demovideos auf eher fantastische Art und Weise, aber diese Art der Bearbeitung kann natürlich auch viel subtiler erfolgen und so womöglich auch wegen kleiner Details misslungene Drehs retten.
Editing videos is where Gemini Omni Flash really shines. It is so incredibly capable.
— fofr (@fofrAI) May 19, 2026
> Make it New Year's Eve with fireworks. Update the clock
London launched the fireworks early. https://t.co/cTGMPbT3tZ pic.twitter.com/c3Kh1y2KO5
Here's an example of 3 edits of a video with Omni:
— fofr (@fofrAI) May 19, 2026
1. original
2 maker her invisible, put gloves on her
3. while she's talking, two men come and take away the framed picture
4. change her outfit pic.twitter.com/ZxuPVSMauV
Text- und Physikdarstellung
Omni brilliert (zumindest in ersten Beispielvideos) in einem bisher oft schwierigen Gebiet, der Darstellung komplexer Texte in Videos und im Erzeugen physikalisch korrekter Interaktionen zwischen Objekten oder dem Verhalten von Objekten in Medien wie etwa Flüssigkeiten.
// Top-News auf einen Blick:
- DJI verklagt Insta360 wegen Patentverletzung durch Luna Ultra
- Cinelux Sixteen - Neue Super-16-Filmkamera schießt Film und digital gleichzeitig
- Immer mehr deutsche Synchronsprecher boykottieren Netflix
- Sony A7C II in der Praxis - Bester Einstieg in die Hybrid-Kamerawelt?
- Panasonic Lumix L10 - Cinematische Kompaktkamera mit hoher Dynamik
- Was ist Latenz und wie kann man sie minimieren?
Holllllyyyyyyyy @GeminiApp cooked 😳😳
— Chetaslua (@chetaslua) May 11, 2026
🚨 Gemini Omni: New video model
Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ??
direct link for those who believes otherwise in comments pic.twitter.com/LUqJLXUxrf
Und hier noch ein besonders komplizierter Test des Text- und Physikverständnisses von Omni mittels des folgenden Prompts:
"Eine dramatische Lesung von ‚Death by Water‘ aus ‚The Wasteland‘, vorgetragen von einem Mann, der Knoblauchbrot isst, während er auf einem Einrad auf einer kleinen Plattform über einem brodelnden Meer aus Tomatensoße balanciert, in dessen Mitte ein Fleischbällchen mit strahlend blauen Augen und einem Zylinder sitzt“"
Gemini Omni: "a dramatic reading of Death by Water from the Wasteland by a man eating garlic bread while balanced on a unicycle on a small platform over a churning sea of tomato sauce in which, at the center, sites a meatball with bright blue eyes wearing a top hat" pic.twitter.com/8IBYgN7eUR
— Ethan Mollick (@emollick) May 19, 2026
Google Omni (Flash) vs Seedance 2.0
In den sozialen Medien kursieren schon mehrere Clips, die Omni mit dem in vielen Belangen, wie zum Beispiel Darstellung von menschlicher Bewegung, aktuellen Topmodell, dem chinesischen Seedance 2.0 vergleichen. Dabei schneidet Omni klar schlechter ab, was deutlich macht, dass seine Stärke eher in der Bearbeitung als der Generierung liegt. Allerdings handelt es sich bei dem aktuellen Modell nur um die Flash-Version von Omni, also eine auf Effizienz getrimmte Variante.
Google promised that Gemini Omni Flash would change the game, but when you put it side-by-side with Seedance 2.0... it’s not even a fair fight. Fingers crossed for Veo4 pic.twitter.com/py0nlWCm84
— JSFILMZ (@JSFILMZ0412) May 19, 2026
Wo gibt es Omni?
Zur Verfügung steht Google Omni Flash als erstes Modell der Omni-Familie ab sofort in der Gemini-App, in Google Flow und in den YouTube Shorts. In Zukunft sollen als Output neben Video auch Bild und Audio unterstützt werden. Alle mit Omni erstellten Videos werden mit dem digitalen Wasserzeichen SynthID versehen. Die so gekennzeichneten Videos lassen sich über die Gemini App, Gemini in Chrome und die Google Suche als KI-generiert identifizieren.
UPDATE 29.Mai: Einem Bericht von Golem zufolge ist die neue Videobearbeitungsfunktion von Omni nicht in Europa verfügbar - es ist aber nicht klar, ob das nur temporär gilt und auch für den Zugriff über über andere Plattformen.


















