Kling AI hat kürzlich die neue Version 3.0 Omni seiner generativen Video-KI veröffentlicht, die einige große Neuerungen mitbringt. So können jetzt bis zu 15 Sekunden langen Videos mitsamt passendem Sound generiert werden. Auch lassen sich detailliert Szenen mit wechselnden Kameraeinstellungen prompten, bei denen die Objekte über alle Einstellungen konsistent bleiben. Neu ist auch die Möglichkeit, Stimmen und Personen gezielt per Referenzvideo zu klonen. Deutlich verbessert worden ist laut Kling beim neuen Modell die Darstellung von Texten. Manche der neuen Funktionen sind allerdings nur in der Kling-App nutzbar und nicht über das Webinterface.

Native Audio-Unterstützung und Lippensynchronisation
Die größte Verbesserung ist die neue Fähigkeit, zusammen mit dem Video natives Audio zu erzeugen. Kling AI folgt hier anderen Video-KIs - Vorreiter war Googles Veo 3.1, inzwischen beherrschen dies auch OpenAIs Sora 2 und Runway Gen-4.5. So können jetzt passend zum Video sowohl Umgebungsgeräusche und Hintergrundmusik als auch lippensynchrone Dialoge mehrerer Figuren generiert werden. Die Lippenbewegungen sollen besonders realistisch wirken, weil sie exakt an den Sprachrhythmus angepasst sein sollen. Unterstützt werden mehrere Sprachen: Chinesisch, Englisch, Japanisch, Koreanisch und Spanisch - Deutsch leider noch nicht.
Voice- und Character-Cloning
Schon zuvor war es möglich, den Hintergrund oder einzelne Elemente einer Szene per Bild zu importieren, um das Aussehen der Bilder gezielt zu beeinflussen. Diese Fähigkeit wurde mit dem multimodalen Kling 3.0 erweitert um die Möglichkeit, die Stimme und das Aussehen einer Person per Referenzvideo exakt zu klonen. Nutzer können jetzt ein 3- bis 8-sekündiges Video einer Person hochladen, um dann neue Szenen mit genau dieser Person zu generieren. Alternativ kann auch eine separate Audiodatei als Referenz hochgeladen werden, um die Stimme einer Figur in einem KI-Video zu ändern.
Multi-Shot-Generierung und Szenenkontrolle
// Top-News auf einen Blick:
- Nikon verklagt Hersteller von Z-Mount Objektiven - in Zukunft weniger und teurer?
- Fake oder nicht? Image Whisperer - neues kostenloses Profi-Tool erkennt KI-Bilder
- Apple stellt mit MacBook Neo günstigstes MacBook mit A18 Pro mobiler CPU vor
- GoPro scheint an einer kompakten Cine-Kamera zu arbeiten
- Kleines Upgrade und neues Topmodell - Apple Studio Display und Studio Display XDR
- Neue Apple MacBook Pro und Air Modelle, erstmals auch mit M5 Pro und M5 Max
Kling 3.0 is truly "one giant leap for AI video generation"! Check out this amazing mockumentary from Kling AI Creative Partner Simon Meyer! pic.twitter.com/Iyw919s6OJ
— Kling AI (@Kling_ai) February 5, 2026
Da für das Funktionieren solcher Multi-Shots die Konsistenz aller Objekte einer Szene über die gesamte Einstellung hinweg zentral ist, wurde Kling 3.0 speziell optimiert, Objekte über Sequenzen hin stabil darzustellen.

Zusammen mit der neuen Möglichkeit, Personen in Szenen zu importieren, sind nun also Szenen möglich, in denen nicht nur jede Einstellung genau definiert wird, sondern auch die Handlung und den Gesichtsausdruck der Figuren im Video per Prompt exakt gesteuert werden - und man kann sie mit ihrer eigenen Stimme sprechen lassen.
Am Wochenende erschien mit Seedance 2.0 allerdings noch ein weiteres, aktualisiertes KI-Videomodell, ebenfalls in China, das ähnliche Fähigkeiten mitbringt, jedoch in Punkto generierte Videoqualität deutlicht besser zu sein scheint und vielleicht sogar das Zeug hat, Veo 3 einzuholen; mehr dazu in Kürze in einer eigenen News.


















