Zukunft des Sound-Designs MultiFoley - Video-Vertonung per KI mit multimodaler Kontrolle

// 17:21 Fr, 29. Nov 2024von blip

Damit KI-generierte Videos nicht stumm bleiben, gibt es bereits mehrere Ansätze zur künstlichen (Nach-)Vertonung - wie berichtet arbeitet unter anderem das Google Deepmind-Team an einem Video-to-Audio-System als Ergänzung für seine Video-KI Veo. KI-generierte Soundeffekte findet man beispielsweise bei Elevenlabs.

MultiFoley - Video-Vertonung per KI mit multimodaler Kontrolle

Nun wurde ein weiteres Modell für die videogesteuerte Klangerzeugung vorgestellt, welches einige potente Fähigkeiten verspricht - stundenlanges Gefrickel um SFX-Schnipsel in der Timeline anzupassen, wird damit überflüssig, denn diese Aufgabe übernehmen künftig Algorithmen. MultiFoley unterstützt dabei eine multimodale Herangehensweise und soll sowohl Text, als auch Audio und Video als Vorgabe annehmen. Der gewünschte Foley-Sound zu einem Clip läßt sich folglich einerseits per Textprompt "aus dem Nichts" generieren, andererseits kann auch ein Audiosample als Referenz definiert werden, etwa aus einer Sound-Effekt-Bibliothek, dessen Klangeigenschaften (z.B. Rhythmus und Klangfarbe) übernommen werden soll. Wird ein Video mit teilweise vorhandenem Sound vorgegeben, spinnt MultiFoley die Tonspur entsprechend weiter.

🎥 Introducing MultiFoley, a video-aware audio generation method with multimodal controls! 🔊

We can
⌨️Make a typewriter sound like a piano 🎹
🐱Make a cat meow like a lion roars! 🦁
⏱️Perfectly time existing SFX 💥 to a video pic.twitter.com/oAiDKykdZw
— Ziyang Chen (@CzyangChen) November 27, 2024

Erzeugen lassen sich natürliche Klänge (z.B. rollende Skateboardräder auf einem Untergrund) ebenso wie skurrilere Audiosequenzen (z. B. das Brüllen eines Löwen, das wie das Miauen einer Katze klingt), jeweils synchron zum Bildereignis. Darüberhinaus bietet negatives Prompting die Möglichkeit, unerwünschte Audioelemente auszuschließen.

// Top-News auf einen Blick:

MultiFoley basiert auf Diffusionsmodellen und nutzt für das Training aktuell zwei verschiedene Datensets, VGG-Sound mit 168K Samples für die Video-Text-Ton-Generierung und für die Text-Ton-Generierung Sound-ideas mit 400K Samples. Der Ansatz verknüpft Sprache mit Videohinweisen und entkoppelt die semantischen und zeitlichen Elemente von Videos. Dies ermöglicht kreative Foley-Anwendungen, wie z. B. die Modifizierung eines Vogelgezwitscher-Videos, um es wie eine menschliche Stimme klingen zu lassen, oder die Umwandlung eines Schreibmaschinengeräuschs in Klaviertöne - und dies, während es mit dem Video synchronisiert bleibt.

Eine wesentliche Neuerung des Modells besteht laut der Entwickler darin, dass es sowohl auf Internet-Videodaten mit minderwertigem Ton als auch auf professionellen SFX-Aufnahmen trainiert werden kann, um eine qualitativ hochwertige Tonerzeugung mit voller Bandbreite (48 kHz) zu ermöglichen. So soll MultiFoley mit erfolgreich synchronisierten und qualitativ hochwertigen Klängen andere bestehende Methoden übertreffen. Eine Erzeugung von Musik oder Dialogen (wie bei Googles Video-to-Audio-System) scheint jedoch nicht angestrebt zu werden - der Name ist Programm.

MultiFoley ist ein gemeinsames Projekt von Forschern der amerikanischen Universität Michigan und Adobe. Somit sollte man sich nicht wundern, wenn eine ähnliche Funktionalität über kurz oder lang im Firefly Video-Generator auftauchen sollte; aktuell ist MultiFoley nicht öffentlich zugänglich.

mehr Infos bei
ificl.github.io

Auf Socials teilen:

Leserkommentare // Neueste

Frank Glencairn // 07:34 am 30.11.2024

Und jetzt bitte noch in Fairlight einbauen.

berlin123 // 20:16 am 29.11.2024

Wow.

Im Forum mitdiskutieren >>

Ähnliche News //

News

Editing per Prompt Google Veo am Start - neue Video-KI macht über 60 Sekunden lange Clips

Während das einstige Spitzenmodell OpenAIs Sora noch immer nicht öffentlich ist, geht der Kampf um die beste Video-KI unvermindert geht weiter - jetzt hat Google sein erstmals Mai ...

// 11:52 Fr, 6. Dez 2024von Thomas Richter

News

Das Holodeck ist da Google DeepMind Genie 3 - interaktive Welten in Echtzeit generieren

Googles DeepMind hat Genie 3 vorgestellt, einen interaktiven Weltengenerator, der per Prompt Welten erstellt, die dann in Echtzeit über die Cursorstasten erkundet werden können - ....

// 20:27 Di, 5. Aug 2025von Thomas Richter

News

Generative KI-Videos Google DeepMind Veo erzeugt 1080p-Clips mit verbesserter Konsistenz

Auf der gestern gestarteten Google I/O Konferenz stellte Alphabet nicht nur eine Vielzahl neuer, teilweise multimodaler Sprachmodelle vor, um Open AI etwas im Zaum zu halten. Auch ...

// 12:39 Mi, 15. Mai 2024von Rudi Schmidts

News

Video-to-Audio KI für Veo Google DeepMind wird Videos mit automatisch erzeugter Tonspur unterlegen

Die wenigsten KI-Videogeneratoren erstellen Clips inklusive Ton - unseres Wissens bildet Pika mit sowohl Dialogen als auch Sound Effects hier die einzige Ausnahme, während OpenAI ....

// 20:01 Mi, 19. Jun 2024von blip

News

KI-Video Revolution reloaded Google Veo 3 vorgestellt - Die erste Video-KI mit voll integriertem Sound

Veo 3 generiert als erste Video-KI natives Audio - sowohl Sprache und Gesang, als auch Musik und Soundeffekte wie Geräusche und auch Tierlaute - alles passend zum entsprechenden .....

// 18:48 Do, 22. Mai 2025von Thomas Richter

zur Newsübersicht >

KI-Boom trifft SSD-Markt Leak: Samsungs plant SATA-Aus - Kommt der Preisschock auch bei SSDs?

Neuen Gerüchten von MooresLawIsDead zufolge will Samsung aus der Produktion von SATA-SSDs aussteigen; angekündigt werden soll dies im Januar. Ein solcher Schritt hätte kurz- und .....

// 19:11 Mo, 15. Dez 2025von Thomas Richter

News

Anstieg bei Kameraverkäufen Kompaktkameras wieder im Trend - trotz Smartphones

Als im April unerwartet viele DSLMs verkauft wurden - 36% mehr als im Vorjahresmonat -, stellte sich die Frage nach einer möglichen Trendwende auf dem Kameramarkt. Ob sich die ...

// 15:32 Mo, 15. Dez 2025von blip

News

FPV-Flugerlebnis ganz neu Antigravity A1 - die erste 360° Drohne ist da

Insta360 hatte die Antigravity ja schon im August angekündigt - Gerüchten nach sollte sie im Januar erscheinen, aber durch DJIs bevorstehenden Start der eigenen Rundumsicht-Drohne ...

// 18:54 Do, 4. Dez 2025von Thomas Richter

News

Kamera-Deals Bis zu 1.000 Euro sparen: Cashbacks auf Kameras von Sony, Nikon, Canon und Panasonic

Es muss nicht immer ein Black Friday Deal sein: das ganze Jahr über laufen von großen Kameraherstellern verschiedene Aktionen - auch jetzt im Herbst und Winter. Diese wollen wir .....

// 20:26 Do, 27. Nov 2025von Thomas Richter

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Meinung

Paradigmenwechsel KI Google Veo 2 zeigt neue Perspektiven für die Videoproduktion

Mit Veo 2 setzt sich Google an die Spitze aller aktuellen KI-Videogeneratoren. Und zeigt zugleich auf, wohin der KI-Hase laufen wird...

// 16:00 Do, 19. Dez 2024von Rudi Schmidts

Meinung

Die Zukunft des Tracking - das Ende der High-Speed-Kameras?

Zuverlässiges Tracking ist die Basis für bewährte Optical Flow Algorithmen. Nun steht in diesem Gebiet eine qualitative Revolution vor der Tür und dies dürfte nicht nur die ...

// 08:30 Di, 27. Jun 2023von Rudi Schmidts

zur Artikelübersicht >

Aktuelle News //

News

Statement zum Jahresende ARRI blickt optimistisch in die Zukunft - und lagert Lichtproduktion aus?

Das Jahr 2025 wird bei ARRI nicht als das allerbeste in die über hundertjährige Firmengeschichte eingehen - laut unbestätigten, aber auch nicht dementierten Angaben werden ...

// 15:38 Di, 16. Dez 2025von blip

News

Neuer DJI RS 5 Profi-Gimbal kommt bald mit intelligentem Tracking und Turbo-Ladefunktion

Neues Leak Neuer DJI RS 5 Profi-Gimbal kommt bald mit intelligentem Tracking und Turbo-...

Der bekannte DJI-Leaker Igor Bogdanov hat sowohl neue Bilder als auch Infos zur nächsten Generation von DJIs (semi-)professioneller Gimbalserie Ronin veröffentlicht, die darauf ...

// 12:56 Di, 16. Dez 2025von Thomas Richter

zur Newsübersicht >