Natives Audio Kling AI 3.0 Omni - Video-KI mit Lippensynchronisation und Voice-Cloning

Kling AI hat kürzlich die neue Version 3.0 Omni seiner generativen Video-KI veröffentlicht, die einige große Neuerungen mitbringt. So können jetzt bis zu 15 Sekunden langen Videos mitsamt passendem Sound generiert werden. Auch lassen sich detailliert Szenen mit wechselnden Kameraeinstellungen prompten, bei denen die Objekte über alle Einstellungen konsistent bleiben. Neu ist auch die Möglichkeit, Stimmen und Personen gezielt per Referenzvideo zu klonen. Deutlich verbessert worden ist laut Kling beim neuen Modell die Darstellung von Texten. Manche der neuen Funktionen sind allerdings nur in der Kling-App nutzbar und nicht über das Webinterface.


Kling AI 3.0 Omni
Kling AI 3.0 Omni




Native Audio-Unterstützung und Lippensynchronisation

Die größte Verbesserung ist die neue Fähigkeit, zusammen mit dem Video natives Audio zu erzeugen. Kling AI folgt hier anderen Video-KIs - Vorreiter war Googles Veo 3.1, inzwischen beherrschen dies auch OpenAIs Sora 2 und Runway Gen-4.5. So können jetzt passend zum Video sowohl Umgebungsgeräusche und Hintergrundmusik als auch lippensynchrone Dialoge mehrerer Figuren generiert werden. Die Lippenbewegungen sollen besonders realistisch wirken, weil sie exakt an den Sprachrhythmus angepasst sein sollen. Unterstützt werden mehrere Sprachen: Chinesisch, Englisch, Japanisch, Koreanisch und Spanisch - Deutsch leider noch nicht.







Voice- und Character-Cloning

Schon zuvor war es möglich, den Hintergrund oder einzelne Elemente einer Szene per Bild zu importieren, um das Aussehen der Bilder gezielt zu beeinflussen. Diese Fähigkeit wurde mit dem multimodalen Kling 3.0 erweitert um die Möglichkeit, die Stimme und das Aussehen einer Person per Referenzvideo exakt zu klonen. Nutzer können jetzt ein 3- bis 8-sekündiges Video einer Person hochladen, um dann neue Szenen mit genau dieser Person zu generieren. Alternativ kann auch eine separate Audiodatei als Referenz hochgeladen werden, um die Stimme einer Figur in einem KI-Video zu ändern.




Multi-Shot-Generierung und Szenenkontrolle

Während die maximale Videolänge von 10 auf 15 Sekunden verlängert wurde und im Vergleich zu Konkurrenzmodellen wie Sora 2 (20 Sekunden) moderat bleibt, bringt Kling 3.0 eine deutliche Verbesserung mit, die mehr Kontrolle über Szenen ermöglicht. So können KI-Filmemacher jetzt innerhalb eines einzigen Prompts mehrere Schnitte definieren und sowohl angeben, wie lang die einzelnen Einstellungen sein sollen, als auch aus welchem Kamerawinkel das Bild aufgenommen werden und welche Einstellungsgröße es besitzen soll. Zudem kann für jede einzelne Einstellung jeweils die Handlung geprompted werden.



Da für das Funktionieren solcher Multi-Shots die Konsistenz aller Objekte einer Szene über die gesamte Einstellung hinweg zentral ist, wurde Kling 3.0 speziell optimiert, Objekte über Sequenzen hin stabil darzustellen.



Kling AI 3.0 Omni
Kling AI 3.0 Omni




Zusammen mit der neuen Möglichkeit, Personen in Szenen zu importieren, sind nun also Szenen möglich, in denen nicht nur jede Einstellung genau definiert wird, sondern auch die Handlung und den Gesichtsausdruck der Figuren im Video per Prompt exakt gesteuert werden - und man kann sie mit ihrer eigenen Stimme sprechen lassen.



Am Wochenende erschien mit Seedance 2.0 allerdings noch ein weiteres, aktualisiertes KI-Videomodell, ebenfalls in China, das ähnliche Fähigkeiten mitbringt, jedoch in Punkto generierte Videoqualität deutlicht besser zu sein scheint und vielleicht sogar das Zeug hat, Veo 3 einzuholen; mehr dazu in Kürze in einer eigenen News.



Ähnliche News //
Umfrage
    Was bremst Deinen Workflow aktuell am meisten?










    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash