[14:11 Fr,30.September 2022 [e] von Thomas Richter] |
Wie diese hat sie anhand Milliarden von Bildern samt Textbeschreibung gelernt, wie die reale Welt aussieht, aus welchen Objekten sie besteht und wie diese von Menschen beschrieben wird. Zusätzlich dazu allerdings wurde das neuronalen Netzwerk mittels zusätzlicher Schichten für die zeitliche Abfolgen von Bildern noch mit rund 20 Millionen Videos trainiert, um zu lernen wie sich verschiedene Objekte typischerweise bewegen. ![]() So kann die Make-a-Video KI jetzt nur anhand von Textbeschreibungen beliebige kurze Videoclips erzeugen, wie zum Beispiel "Ein Teddybär malt ein Porträt" oder "Ein flauschiges Babyfaultier mit einer orangefarbenen Strickmütze, das versucht, einen Laptop zu bedienen, wobei sich in seinem Auge ein detailliertem Studiolichtschirm spiegelt". Ähnlich wie bei den bildgenerierenden KIs kann auch hier der Bildstil (realistisch, surreal, abstrakt, stilisiert, ...) beliebig definiert werden. ![]() Erweckt Bilder zum LebenAls Input kann anstatt eines Textes aber auch ein Einzelbild verwendet werden (analog zur Image-2-Image Methode bei den Bilder KIs), um dieses zu animieren. Werden zwei Bilder (ein Start- und ein Endbild) definiert, generiert der Make-a-Video Algorithmus dann die Zwischenbilder. Alternativ, quasi per Video-2-Video, kann auch ein Video als Input fungieren, von dem Make-a-Video dann Variationen erzeugt. ![]() Meta AI hat zwar die ![]() Die Qualität der erzeugten Videos läßt zwar noch etwas zu wünschen übrig, sie entsprechen eher kleinen Bildanimationen als echtem (komplexen) Video und sind auch nur wenige Sekunden lang, aber Make-a-Video macht deutlich, wohin die Reise geht. Generierung von Videos und objektbasiertes Editing per Text auch für Consumer rückt immer näher. ![]() Phenaki KI erstellt sogar noch längere VideosWie schnell die Entwicklung gerade voranschreitet beweist auch die Tatsache, daß zeitgleich mit Metas "Make-a-Video" noch ein weiteres Projekt namens ![]() ![]() Interessant sind die für zur Generierung des Videos verwendeten Prompts (samt Anweisungen für die virtuellen Kamerabewegungen): "Viel Verkehr in einer futuristischen Stadt. Ein außerirdisches Raumschiff kommt in der futuristischen Stadt an. Die Kamera geht in das Innere des Raumschiffs der Außerirdischen. Die Kamera bewegt sich vorwärts, bis sie einen Astronauten in einem blauen Raum zeigt. Der Astronaut tippt auf der Tastatur. Die Kamera bewegt sich von dem Astronauten weg. Der Astronaut verlässt die Tastatur und geht nach links. Der Astronaut verlässt die Tastatur und geht weg. Die Kamera bewegt sich über den Astronauten hinaus und blickt auf den Bildschirm. Auf dem Bildschirm hinter dem Astronauten sind Fische zu sehen, die im Meer schwimmen. Crash zoomt auf den blauen Fisch. Wir folgen dem blauen Fisch, wie er im dunklen Ozean schwimmt. Die Kamera zeigt durch das Wasser nach oben in den Himmel. Der Ozean und die Küstenlinie einer futuristischen Stadt. Crash-Zoom in Richtung eines futuristischen Wolkenkratzers. Die Kamera zoomt in eines der vielen Fenster. Wir befinden uns in einem Büroraum mit leeren Schreibtischen. Ein Löwe rennt auf den Schreibtischen herum. Die Kamera zoomt auf das Gesicht des Löwen im Inneren des Büros. Zoom auf den Löwen, der einen dunklen Anzug trägt, in einem Büroraum. Der Löwe im Anzug schaut in die Kamera und lächelt. Die Kamera zoomt langsam auf das Äußere des Wolkenkratzers hinaus. Zeitraffer des Sonnenuntergangs in der modernen Stadt" ![]() ![]() |
![]() |