Erst vor drei Wochen wurde die Open Source (und damit kostenlose) Video-KI CogVideoX veröffentlicht, welche auf handelsüblichen Grafikkarten läuft und so auf jedem entsprechend ausgestatteten Home-PC beliebig Videos generieren kann. Seitdem ist schon viel passiert und CogVideoX wurde in dieser kurzen Zeit um mehrere interessante Funktionen erweitert - das Modell beherrscht jetzt sowohl das klassische Text-to-Video, als auch Image-to-Video und Video-to-Video (Vid2Vid) Modi in der CogVideo Gradio App, um neue Videos auf der Vorlage von Bildern oder gar anderen Videos zu erzeugen. Zudem kann ein vorgegebendes Video per "Extend" fortgesetzt werden.
Video-to-Video for CogVideo
— cocktail peanut (@cocktailpeanut) September 3, 2024
CogVideo video-to-video diffusers pipeline just dropped---it lets you take any video and turn it into another video.
So I&ve added a "video-to-video" tab to the CogVideo Gradio app.
Example: Turn a car driving video into a video game version. pic.twitter.com/cFzuP0Lm7l
Die quelloffene Natur von CogVideoX ermöglicht auch weitere Verbesserungen der Funktionalität und der Oberfläche, welche von Usern implementiert wurden. So kann jetzt mit Gradio "unendlich" Videos generiert werden, d.h. es man gibt einmal ein Prompt ein, daraufhin werden ständig neue Videos ausgespielt - ohne Ende. Nützlich ist dieser Modus zum Beispiel, wenn man ein komplexes Prompt eingibt, aber mit dem Ergebnis bzw. der Interpretation durch die KI nicht zufrieden ist - man kann in diesem neuen Modus dann einfach abwarten, bis eines der Videos zufriedenstellend aussieht. Eine weitere Neuerung ist eine Seitenleiste in der Bedienoberfläche, welche die 50 zuletzt erzeugten Videos anzeigt - praktisch für die "unendliche" Generierung, um die verschiedenen Versionen zu sichten.
Muybridge vs #CogVideoX" class="textlink">vid2vid: pic.twitter.com/eZOcz5Qvm9
— tintwotin (@tintwotin) September 1, 2024
Leider entstehen die erzeugten 6 Sekunden langen Videos standardmäßig immer noch nur mit einer Auflösung von 720x480 Pixeln und einer geringen Bildwiederholungsrate von 8 Bildern pro Sekunde - in diesem Punkt hat sich seit der ersten Version von CogVideoX wie es scheint nichts getan. Die freie Demo von CogVideoX-5B auf Hugginface integriert auf Wunsch allerdings schon ein Upscaling auf 2.880 x 1920 Pixel und eine Interpolation der Bildrate auf 16 fps - hier finden sich auch mehrere Democlips. CogVideoX kann aber wie gesagt auch auf dem eigenen PC installiert werden, eine genügend leistungsstarke GPU mit ausreichend VRAM vorausgesetzt.
CogVideX kommt in zwei unterschiedlichen Versionen, welche sich in ihrer Modellgröße und demzufolge auch der erzielten Bildqualität und jeweiligen Hardware-Anforderungen unterscheiden. Standardmässig läuft das kleinere Modell CogVideoX-2B schon auf älteren GPUs wie der GTX 1080TI mit 11 GB VRAM und das größere CogVideoX-5B Modell mit 5 Milliarden Parametern auf Mittelklasse-GPUs wie der RTX 3060 mit 12 GB VRAM - mit Hilfe spezieller Parameter kann der Speicherhunger von CogVideoX-5B allerdings noch weiter verringert werden, sodass es schon auf auf Grafikkarten mit nur 5 GB VRAM arbeitet.
2
Das CogVideoX-2B Modell wurde unter der großzügigen Apache 2.0 Lizenz veröffentlicht, das CogVideoX-5B unterliegt der leicht eingeschränkten CogVideoX Lizenz, welche Nutzern die gebührenfreie Nutzung der Software gewährt - für die kommerzielle Nutzung ist eine Registrierung und kostenlose Basislizenz erfordert, welche die kommerzielle Nutzung mit bis zu 1 Million Besuchen pro Monat erlaubt.