Natürlich war es nur eine Frage der Zeit, bis auch das Stable Diffusion Team ein eigenes KI-Modell für Bewegtbilder ins Rennen schicken würde und dieser Tag ist nun gekommen. Stable Video Diffusion (SVD) Image-to-Video ist ein Latent Video Diffusion Modell (Video-LDM), das aus einem Standbild als Input einen kurzen Videoclip generieren kann.
Zum Start wurden auf Hugging Face zwei SVD-Modelle vorgestellt, die primär für Forschungszwecke vorgesehen sind. Sie sind zwar noch nicht auf Fotorealismus getrimmt worden. Im Gegensatz zu geschlossenen, kommerziellen Modellen wie RunwayML, sind die Stability AI Modelle jedoch dafür frei für jedermann einseh- und nutzbar.
Wer sich zu den näheren Details des Modells informieren möchte findet hier ein entsprechendes PDF sowie hier den direkten Zugang zum Code auf Github.
Die zwei Modelle selbst stehen auf Huggin Face hier und hier zum Download bereit. Technisch unterscheiden sich beide Modelle vor allem durch in der Anzahl der erzeugten FPS (14 bzw. 25) bei einer Auflösung von 576 x 1024 Pixeln.
Nach ersten Informationen wird eine GPU mit mindestens 40 GB VRAM benötigt, um die neuen Modelle selbst installieren und nutzen zu können. Allerdings gibt es bereits Stimmen aus dem Netz, die behaupten, auch mit 24 GB Ergebnisse zu bekommen. Inwieweit hierfür die Auflösung und Framraten eingeschränkt werden müssen/können ist jedoch noch nicht klar. Die Gewichte selbst haben "nur" eine Größe von ca. 10 GB. Insofern gibt es noch Hoffnung, dass man in naher Zukunft auch mit entsprechenden Wartezeiten auf dem eigenen PC mit Consumer-GPUs experimentieren kann.