Kostenlose Konkurrenz CogVideoX: Neue Open Source Video-KI läuft auf Consumer-GPUs

// 13:18 Di, 3. Sep 2024von Thomas Richter

Das gerade veröffentlichte, quelloffene Text-zu-Video-Modell CogVideoX hat das Potential, die Video-KI Revolution nochmals deutlich zu beschleunigen, denn der Code wurde nicht nur samt seiner Modellgewichte zum freien Download gestellt, sondern läuft schon auf handelsüblichen Grafikkarten. Somit könnte jeder User mit einer nur halbwegs leistungsstarken GPU auf seinem Home-PC per KI Videos generieren, ohne sich angesichts zu vieler Versuche um die die Kosten Sorgen machen zu müssen - ldiglich der verbrauchte Strom schlägt zu Buche.

Konkurrenz für Runway, Luma und Kling?

Das von Forschern der Tsinghua University und von Zhipu AI - richtig, auch dies ist ein chinesisches Projekt - neuentwickelte CogVideoX ( hier das Paper ) generiert Videos von bis zu 6 Sekunden Länge in einer Auflösung von 720x480 Pixeln. Der einzige Wermutstropfen ist allerdings die geringe Bildwiederholungsrate von 8 Bildern pro Sekunde - diese könnte aber nachträglich mittels intelligenter Interpolation per KI noch erhöht werden.

Hot New Release: CogVideoX-5B, a new text-to-video model from @thukeg group (the group behind GLM LLM series)

- More examples from the 5B model in this thread
- GPU vram requirement on Diffusers: 20.7GB for BF16 and 11.4GB for INT8
- Inference for 50 steps on BF16: 90s on… pic.twitter.com/GAyWmst5GW
— Gradio (@Gradio) August 27, 2024

Die erste Version von CogVideo erschien bereits 2022, aber erst die aktuelle Version CogVideoX liefert jetzt Ergebnisse, die laut Benchmarks der Forscher Konkurrenten wie Videocrafter 2.0 und Sora übertreffen soll. Anhand der gezeigten Beispiele kann sich jeder dazu seine eigene Meinung bilden - allerdings ist die Messlatte für die Qualität von Video-KIs gerade durch das neue chinesische Modell MiniMax nochmal deutlich erhöht worden. Die auf einem Heim-PC generierten Clips des YouTube-Videos unten jedenfalls entsprechen nicht dem aktuellen Qualitätsstandard.

CogVideoX just released the weights for its 5B model!

It&s the best open weights text-to-video model - competitive with Runway / Luma / Pika. With @diffuserslib, it fits on < 10GB VRAM 🤏

(ah, and they changed the smaller 2B model license to Apache 2.0 ) pic.twitter.com/5fxAk6BuLv
— apolinario (@multimodalart) August 27, 2024

CogVideX kommt in zwei unterschiedlichen Versionen, welche sich in ihrer Modellgröße und demzufolge auch der erzielten Bildqualität und jeweiligen Hardware-Anforderungen unterscheiden. Standardmässig läuft das kleinere Modell CogVideoX-2B schon auf älteren GPUs wie der GTX 1080TI mit 11 GB VRAM und das größere CogVideoX-5B Modell mit 5 Milliarden Parametern auf Mittelklasse-GPUs wie der RTX 3060 mit 12 GB VRAM - mit Hilfe spezieller Parameter kann der Speicherhunger von CogVideoX-5B allerdings noch weiter verringert werden, sodass es schon auf auf Grafikkarten mit nur 5 GB VRAM arbeitet. Unterstützt wird momentan aber nur die Generierung per Text-to-Video - Image-to-Video bzw. Start-/End-Keyframes (noch) nicht.

Das CogVideoX-2B Modell wurde unter der großzügigen Apache 2.0 Lizenz veröffentlicht, das CogVideoX-5B unterliegt der leicht eingeschränkten CogVideoX Lizenz, welche Nutzern die gebührenfreie Nutzung der Software gewährt - für die kommerzielle Nutzung ist eine Registrierung und kostenlose Basislizenz erfordert, welche die kommerzielle Nutzung mit bis zu 1 Million Besuchen pro Monat erlaubt.

// Top-News auf einen Blick:

Selbst ausprobieren

Die freie Demo von CogVideoX-5B auf Hugginface integriert auf Wunsch schon ein Upscaling auf 1.440 x 960 Pixel und eine Interpolation der Bildrate auf 16 fps - hier finden sich auch mehrere Democlips. CogVideoX kann aber auch auf dem eigenen PC installiert werden, eine genügend leistungsstarke GPU mit ausreichend VRAM vorausgesetzt.

Wir wagen die Voraussage, dass CogVideoX großen Einfluss auf die Entwicklung von Video-KIs nehmen wird aufgrund der Tatsache, dass sein Code frei öffentlich verfügbar ist und deswegen leicht verwendet und vor allem weiterentwickelt oder integriert werden kann. Die Hardwareansprüche sind so gering, dass auch die Einsatzhürde sehr niedrig ist, da jeder Gaming-PC dafür ausreicht. Damit wird - wie schon bei quelloffenen LLMs wie Metas Llama - sichergestellt, dass die Weiterentwicklung und der Einsatz in Sachen KI nicht nur finanzstarken Großkonzernen vorbehalten ist, die das nötige Kapital für ein Training solcher Modelle haben.

Natürlich erhöht diese freie Zugänglichkeit einer hochwertigen Video-KI auch die Gefahr von noch mehr Fake-Videos - es ist noch nicht klar, ob die Forscher irgendwelche vorsichtsmaßnahmen eingebaut haben (bzw. ihre Trainingsdaten oder die Promptmöglichkeiten beschränkt haben), aber selbst wenn, wird die quelloffene Natur von CogVideoX wahrscheinlich bald zur Umgehung derselben einladen.

UPDATE 4. September : Ab sofort unterstützt CogVideoX auch Video-to-Video, d.h. ein Video kann in ein stilistisch anderes umgewandelt werden, wie wird zum Beispiel das Video einer Autofahrt aus der Ich-Perspektive in eine Computerspielgrafik umgewandelt:

Video-to-Video for CogVideo

CogVideo video-to-video diffusers pipeline just dropped---it lets you take any video and turn it into another video.

So I've added a "video-to-video" tab to the CogVideo Gradio app.

Example: Turn a car driving video into a video game version. pic.twitter.com/cFzuP0Lm7l
— cocktail peanut (@cocktailpeanut) September 3, 2024

mehr Infos bei
github.com

Auf Socials teilen:

Leserkommentare // Neueste

medienonkel // 18:37 am 6.9.2024

Da weiß man wieder, was eine Installationsdatei an Arbeit abnimmt. Stable Diffusion läuft bei mir jetzt auch nur noch sehr seltsam. Kommt zwar was raus, sieht aber alles nicht...weiterlesen

cantsin // 00:13 am 6.9.2024

Das ganze generative KI-Zeugs ist eine einzige Python-Dependency-Hölle, auch wenn man Linuxer ist. Bei mir tut es zur Zeit Stable Diffusion WebUI nicht mehr, weil es eine ältere...weiterlesen

medienonkel // 00:01 am 6.9.2024

Ja, weiß nicht.... Mal mein durchaus sehr lehrreicher Erfahrungsbericht von einem im Nachhinein blauäugigen Experiment, dem ich mich anfangs durchaus gewachsen sah. Klar, Vieles...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Auf Heim-PCs ab 5GB VRAM Freie Video-KI CogVideoX mit neuen Funktionen: Nonstop-Videos und Vid2Vid

Erst vor drei Wochen wurde die Open Source (und damit kostenlose) Video-KI CogVideoX veröffentlicht, welche auf handelsüblichen Grafikkarten läuft und so auf jedem entsprechend ...

// 11:09 Sa, 28. Sep 2024von Thomas Richter

News

Kostenlos und effizient Pyramid Flow - Neue Open Source Video-KI generiert mit 1280 x 768 und 24fps

Gerade wächst das Angebot von KIs, welche hochwertiges Video erzeugen können, rasend schnell - das neue Pyramid Flow Modell chinesischer Forscher aber sticht dabei heraus, denn es ...

// 15:37 So, 13. Okt 2024von Thomas Richter

News

Geschwindigkeitsrekord LTX Video - Neue Open Source KI generiert Videos schneller als in Echtzeit

Lightricks hat mit LTX Video eine neue Video-KI samt Quellcode vorgestellt, die schon auf Heim-PCs mit einer starken Grafikkarte wie einer Nvidia 4090 läuft und das erste Open ...

// 12:03 Mo, 25. Nov 2024von Thomas Richter

News

480p mit 30fps Genmo Mochi 1 - neue Open-Source Video-KI will mit Kling und Runway konkurrieren

Und wieder ist eine neue, vielversprechende Open-Source Video-KI veröffentlicht worden, und wieder kommt sie aus China: Mochi 1 heisst das neue Video-Modell des Startups Genmo, ...

// 16:59 Fr, 25. Okt 2024von Thomas Richter

News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion .....

// 10:57 Mo, 30. Jan 2023von Thomas Richter

zur Newsübersicht >

KI Funktionen kostenpflichtig Affinity Photo, Designer und Publisher ab sofort in einer kostenlosen App

Wie von uns bereits vor drei Wochen vermutet stellt Affinity ab sofort seine gesamte Suite für Mac und PC kostenlos zur Verfügung. Damit gibt es nun eine sehr potente ...

// 19:41 Do, 30. Okt 2025von Rudi Schmidts

News

Vorerst nur in China DJI Neo 2 bringt Rundum-Hinderniserkennung samt LiDAR

Wie vorhergesagt und geteasert, hat DJI soeben die neue intelligente 4K-Selfie-Drohne Neo 2 offiziell vorgestellt - ungewöhnlicherweise aber nicht weltweit, sondern - wohl vorerst ...

// 17:40 Do, 30. Okt 2025von Thomas Richter

News

Schneller als M3 Ultra? Künftige Xbox Next: Vollwertiger Windows-PC mit Potenzial für Videobearbeitung

Laut sich verdichtender Gerüchte und Berichte, unter anderem von den bekannten Quellen Moore&s Law Is Dead und Windows Central, plant Microsoft eine fundamentale Neuausrichtung ...

// 11:03 Mi, 29. Okt 2025von Rudi Schmidts

Test

Mobiles Filmen iPhone 17 Pro Max im Praxistest: ProRes RAW, Apple Log 2 - inkl. DJI Osmo Pocket Vergleich

Mit dem iPhone 17 Pro Max präsentiert Apple seinen neuesten Smartphone-Boliden und dies mit einer ganzen Reihe von spannenden Upgrades für mobile Video-User: Erstmalig steht eine ...

// 12:20 Mi, 22. Okt 2025von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Test

Lumix S1II und S 24-60mm F2.8 Panasonic LUMIX S1II im Praxistest: Beste Video-DSLM ihrer Klasse Dank 5.1K Open Gate u. hohem DR?

Mit der neuen S1II mit 24MP partially stacked CMOS Sensor schickt Panasonic eine nochmals videozentrierte Version der S1RII ins Rennen um die beste Video DSLM im 3.000 Euro ...

// 15:58 Di, 13. Mai 2025von Rob

zur Artikelübersicht >

Aktuelle News //

News

Mobile Video-Produktion RØDE Wireless Microphone Camera Kit - Funkmikro-Set für Kameras

RØDE hat mit dem Wireless Micro Camera Kit ein speziell auf Videoproduzenten zielendes Set seines Wireless Micro Funkmikrofonsystems vorgestellt. Schon seit Juli hatte RØDE ...

// 12:00 So, 2. Nov 2025von Thomas Richter

News

Open-Source-Projekt Graphite - kostenloser Grafik-Editor von Photoshop bis Motion

Wir berichteten ja gerade erst über die neue kostenlose Affinity Suite, welche eine potente Bildbearbeitung, einen Vektorgrafik-Editor sowie sogar eine komplette Publishing-...

// 14:59 Sa, 1. Nov 2025von Rudi Schmidts

zur Newsübersicht >