480p mit 30fps Genmo Mochi 1 - neue Open-Source Video-KI will mit Kling und Runway konkurrieren

// 16:59 Fr, 25. Okt 2024von

Und wieder ist eine neue, vielversprechende Open-Source Video-KI veröffentlicht worden, und wieder kommt sie aus China: Mochi 1 heisst das neue Video-Modell des Startups Genmo, das unter der freien Apache 2.0 Lizenz samt Gewichten zum Download bereit steht und auch online schon kostenlos ausprobiert werden kann.


Genmo Mochi 1 - neue Open-Source Video-KI will mit Kling und Runway konkurrieren


Mochi 1 soll - laut Genmo selbst - die aktuellen Top-Video-KIs wie Runway Gen 3, Kling oder Lumas Dream Machine in Sachen Bewegungskohärenz und Promptinterpretation schlagen. Bei der aktuellen Version handelt es sich dabei noch um einen Preview, der auf eine Auflösung von 480p (640 x 480 Pixel) mit einer (sehr hohen) Bildwiederholungsrate von 30 fps begrenzt ist; die generierte Cliplänge liegt bei 5.4 Sekunden. Eine HD-Version soll noch später im Jahr erscheinen.





Das neue Modell mit 10 Milliarden Parametern basiert auf einer neuen Asymmetric Diffusion Transformer (AsymmDiT) Architektur und soll die kohärente, realistische Bewegungsdarstellung von einzelnen Objekten (wie Menschen und Tiere) besonders gut beherrschen, ebenso auch komplexe physikalische Simulationen wie Flüssigkeits-, Fell- oder Haarbewegungen. Mochi 1 geht damit, wie alle besseren Video-KIs, einen Schritt in Richtung Weltsimulator, der alles erdenkliche halbwegs realistisch darstellen kann.





Die - für eine Video-KI - sehr hohe Framerate von 30 fps sorgt zudem für eine gute Bewegungsdarstellung. Eine weitere Stärke soll die präzise Umsetzung der Textprompts darstellen, also wie gut Mochi 1 ein Prompt in Bezug auf das Motiv, den Hintergrund und gewünschte Handlungen in bewegte Bilder umsetzt. Hier der von den Entwicklern selbst erstelle Vergleich mit führenden Open-Source und kommerziellen (Closed-Source) Video-KIs im Bezug auf Bewegungskohärenz und Promptinterpretation:



Genmo Mochi 1 - neue Open-Source Video-KI will mit Kling und Runway konkurrieren


Eigentlich benötigt Mochi 1 zur Arbeit vier von Nvidias speziellen H100 GPUs mit jeweils 80 GB VRAM, aber dank des offenen Quellcodes gibt es schon jetzt, kurze Zeit nach der Veröffentlichung, von Usern modifizierte Versionen, die weniger als 20 GB VRAM benötigen und so auch auf Home/Gaming-PCs laufen, die zum Beispiel mit einer Nvidia RTX 4090 ausgestattet sind - weitere Optimierungen sind in Entwicklung.





Mochi 1 ist auf jeden Fall eine interessante Ergänzung der aktuellen Open-Source Video-KIs wie Pyramid Flow und CogVideoX.



Hier weitere News zum Thema Video-KIs.


Ähnliche News //
Umfrage
    Meine nächste Kamera wird eine










    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash