Mit Hunyuan-Video stellt Tencent ein neuartiges Open-Source-Videomodell vor, dessen erste Democlips bei der Videogenerierung eine Qualität an den Tag legen, die mit vielen Closed-Source-Modellen mindestens vergleichbar ist. Dazu bietet das Modell gleich mehrere moderne Zusatzfunktionen unter einer Haube an:
So bietet es beispielsweise die direkte Erzeugung von Soundeffekten bei der Erstellung des Clips. Oder auch Video-zu-Video Übertragung von Mimik bzw. Gesichtsausdrücken. Hierfür stellte Runway gerade erst das dedizierte Closed Source Tool Act-One vor. Auch die Steuerung mit Skelett-Vorgaben ist direkt im Modell möglich.
Laut Tencent wurde das Hunyuan-Videomodell mit über 13 Milliarden Parametern trainiert, was es zum größten aller verfügbaren Open-Source-Modelle machen soll. Allerdings sprengt der Speicherbedarf für das Modell auch die VRAM-Anforderungen gängiger PC-GPUs. Mindestens 45 GB V-RAM werden für Clips in der kleinsten Auflösung (960 x 544 px) gefordert. Für bessere Ergebnisse sind 60 - 80GB dringend empfohlen. Hiermit lassen sich dann immerhin 1280 x 720px-Videos ohne Cloudhilfe erstellen. Bis man jedoch die rund 20.000 Euro für eine NVIDIA A100 80GB wieder finanziell reingerendert hat, dürfte man vielleicht doch besser eine solche GPU in der Cloud mieten. Entsprechende Angebote finden sich hier bereits ab ca. 1 Dollar / Stunde.
Das könnte sich vielleicht lohnen, denn laut Tencent übertrifft HunyuanVideo momentan andere aktuelle KI-Videomodelle wie Runway Gen-3, Luma 1.6 und drei der leistungsstärksten chinesischen Videogenerierungsmodelle. Mit der Veröffentlichung des Codes und der Gewichte des Basismodells und seiner Anwendungen möchte Tencent bewusst die Lücke zwischen Closed-Source- und Open-Source-Videobasismodellen schließen. Diese Initiative soll der Community die Möglichkeit geben, mit eigenen Ideen zu experimentieren und damit ein dynamischeres und lebendigeres Ökosystem für die Videogenerierung zu fördern.
Wer sich für mehr Hintergründe zum Modell interessiert, findet hier zum Einstieg das zugehörige Paper.
Tencent just dropped HunyuanVideo!
— Dreaming Tulpa (@dreamingtulpa) December 3, 2024
A new 13B open-source text-to-video model that looks like it is going to take the throne pic.twitter.com/TiJo4aQ3yd
SUPER impressive FILM made by @TXhunyuan AI video generation model made by 大不溜z.
— Tiezhen WANG (@Xianbao_QIAN) December 2, 2024
Where is sora? Do you think that it will do much better? pic.twitter.com/Tw2EUW3iMk