Zukunft des Sound-Designs MultiFoley - Video-Vertonung per KI mit multimodaler Kontrolle

// 17:21 Fr, 29. Nov 2024von

Damit KI-generierte Videos nicht stumm bleiben, gibt es bereits mehrere Ansätze zur künstlichen (Nach-)Vertonung - wie berichtet arbeitet unter anderem das Google Deepmind-Team an einem Video-to-Audio-System als Ergänzung für seine Video-KI Veo. KI-generierte Soundeffekte findet man beispielsweise bei Elevenlabs.

MultiFoley - Video-Vertonung per KI mit multimodaler Kontrolle


Nun wurde ein weiteres Modell für die videogesteuerte Klangerzeugung vorgestellt, welches einige potente Fähigkeiten verspricht - stundenlanges Gefrickel um SFX-Schnipsel in der Timeline anzupassen, wird damit überflüssig, denn diese Aufgabe übernehmen künftig Algorithmen. MultiFoley unterstützt dabei eine multimodale Herangehensweise und soll sowohl Text, als auch Audio und Video als Vorgabe annehmen. Der gewünschte Foley-Sound zu einem Clip läßt sich folglich einerseits per Textprompt "aus dem Nichts" generieren, andererseits kann auch ein Audiosample als Referenz definiert werden, etwa aus einer Sound-Effekt-Bibliothek, dessen Klangeigenschaften (z.B. Rhythmus und Klangfarbe) übernommen werden soll. Wird ein Video mit teilweise vorhandenem Sound vorgegeben, spinnt MultiFoley die Tonspur entsprechend weiter.





Erzeugen lassen sich natürliche Klänge (z.B. rollende Skateboardräder auf einem Untergrund) ebenso wie skurrilere Audiosequenzen (z. B. das Brüllen eines Löwen, das wie das Miauen einer Katze klingt), jeweils synchron zum Bildereignis. Darüberhinaus bietet negatives Prompting die Möglichkeit, unerwünschte Audioelemente auszuschließen.


MultiFoley - Video-Vertonung per KI mit multimodaler Kontrolle

MultiFoley basiert auf Diffusionsmodellen und nutzt für das Training aktuell zwei verschiedene Datensets, VGG-Sound mit 168K Samples für die Video-Text-Ton-Generierung und für die Text-Ton-Generierung Sound-ideas mit 400K Samples. Der Ansatz verknüpft Sprache mit Videohinweisen und entkoppelt die semantischen und zeitlichen Elemente von Videos. Dies ermöglicht kreative Foley-Anwendungen, wie z. B. die Modifizierung eines Vogelgezwitscher-Videos, um es wie eine menschliche Stimme klingen zu lassen, oder die Umwandlung eines Schreibmaschinengeräuschs in Klaviertöne - und dies, während es mit dem Video synchronisiert bleibt.


MultiFoley - Video-Vertonung per KI mit multimodaler Kontrolle

Eine wesentliche Neuerung des Modells besteht laut der Entwickler darin, dass es sowohl auf Internet-Videodaten mit minderwertigem Ton als auch auf professionellen SFX-Aufnahmen trainiert werden kann, um eine qualitativ hochwertige Tonerzeugung mit voller Bandbreite (48 kHz) zu ermöglichen. So soll MultiFoley mit erfolgreich synchronisierten und qualitativ hochwertigen Klängen andere bestehende Methoden übertreffen. Eine Erzeugung von Musik oder Dialogen (wie bei Googles Video-to-Audio-System) scheint jedoch nicht angestrebt zu werden - der Name ist Programm.



MultiFoley ist ein gemeinsames Projekt von Forschern der amerikanischen Universität Michigan und Adobe. Somit sollte man sich nicht wundern, wenn eine ähnliche Funktionalität über kurz oder lang im Firefly Video-Generator auftauchen sollte; aktuell ist MultiFoley nicht öffentlich zugänglich.


Leserkommentare // Neueste
Frank Glencairn  //  07:34 am 30.11.2024
berlin123  //  20:16 am 29.11.2024
Ähnliche News //
Umfrage
    Wieviele Objektive besitzt du insgesamt?









    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash