Und wieder ist eine neue, vielversprechende Open-Source Video-KI veröffentlicht worden, und wieder kommt sie aus China: Mochi 1 heisst das neue Video-Modell des Startups Genmo, das unter der freien Apache 2.0 Lizenz samt Gewichten zum Download bereit steht und auch online schon kostenlos ausprobiert werden kann.
Mochi 1 soll - laut Genmo selbst - die aktuellen Top-Video-KIs wie Runway Gen 3, Kling oder Lumas Dream Machine in Sachen Bewegungskohärenz und Promptinterpretation schlagen. Bei der aktuellen Version handelt es sich dabei noch um einen Preview, der auf eine Auflösung von 480p (640 x 480 Pixel) mit einer (sehr hohen) Bildwiederholungsrate von 30 fps begrenzt ist; die generierte Cliplänge liegt bei 5.4 Sekunden. Eine HD-Version soll noch später im Jahr erscheinen.
Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.
— Genmo (@genmoai) October 22, 2024
magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce pic.twitter.com/YzmLQ9g103
Das neue Modell mit 10 Milliarden Parametern basiert auf einer neuen Asymmetric Diffusion Transformer (AsymmDiT) Architektur und soll die kohärente, realistische Bewegungsdarstellung von einzelnen Objekten (wie Menschen und Tiere) besonders gut beherrschen, ebenso auch komplexe physikalische Simulationen wie Flüssigkeits-, Fell- oder Haarbewegungen. Mochi 1 geht damit, wie alle besseren Video-KIs, einen Schritt in Richtung Weltsimulator, der alles erdenkliche halbwegs realistisch darstellen kann.
Die - für eine Video-KI - sehr hohe Framerate von 30 fps sorgt zudem für eine gute Bewegungsdarstellung. Eine weitere Stärke soll die präzise Umsetzung der Textprompts darstellen, also wie gut Mochi 1 ein Prompt in Bezug auf das Motiv, den Hintergrund und gewünschte Handlungen in bewegte Bilder umsetzt. Hier der von den Entwicklern selbst erstelle Vergleich mit führenden Open-Source und kommerziellen (Closed-Source) Video-KIs im Bezug auf Bewegungskohärenz und Promptinterpretation:
Eigentlich benötigt Mochi 1 zur Arbeit vier von Nvidias speziellen H100 GPUs mit jeweils 80 GB VRAM, aber dank des offenen Quellcodes gibt es schon jetzt, kurze Zeit nach der Veröffentlichung, von Usern modifizierte Versionen, die weniger als 20 GB VRAM benötigen und so auch auf Home/Gaming-PCs laufen, die zum Beispiel mit einer Nvidia RTX 4090 ausgestattet sind - weitere Optimierungen sind in Entwicklung.
Mochi 1 ist auf jeden Fall eine interessante Ergänzung der aktuellen Open-Source Video-KIs wie Pyramid Flow und CogVideoX.
Hier weitere News zum Thema Video-KIs.