Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

// 10:26 Do, 2. Feb 2023von Thomas Richter

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: hatte Google gerade noch MusicLM vorgestellt, folgt nun wenige Tage später AudioLDM eines Forscherteams der University of Surrey und des Imperial College. Ein auch für Filmemacher sehr vielversprechendes Projekt, denn es synthetisiert nicht nur Musikstücke samt Instrumenten per Textprompt, sondern auch Geräusche (SFX aka Sound Effects). So kann AudioLDM auf Wunsch auch ganze Geräuschkulissen, ideal für die Sounduntermalung von Filmen, produzieren.

Zudem will das Team von AudioLDM das Programm samt Modell per Open Source online stellen, was hieße, dass es nicht nur frei auf dem eigenen Computer genutzt, sondern auch verbessert und in andere Programme eingebunden werden könnte. So könnte es zum Beispiel in Form eines Plugins in Videoschnittprogrammen wie Adobe Premiere oder Blackmagics DaVinci Resolve zur Generierung von Soundkulissen genutzt werden. Für die Nutzung zuhause spricht auch, dass AudioLDM sehr effizient sein soll (d.h. dass es relativ wenig Rechenleistung erfordert) und das Training - zum Beispiel mit eigenen Soundbeispielen - mittels nur einer GPU (wie zum Beispiel einer NVIDIA RTX 3090) erfolgen kann.

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

Zudem beherrscht AudioLDM praktische Funktionen, welche schon von den Bild-KIs her bekannt sind, wie InPainting (ein Teil einer Audioaufnahme wird passend zum Rest per Textprompt durch einen anderen Sound ersetzt), Styletransfer (eine Melodie wird von einem anderen Instrument gespielt) oder Super Resolution (d.h. bei einer Audioaufnahme von Musik oder Sprache mit geringer Samplingauflösung, wird die Auflösung und damit die Audioqualität per Upsampling erhöht).

Hier ein Beispiel für Styletransfer: Trompete zu Kindergesang

Neben der Beschreibung der Töne, die generiert werden sollen, lassen sich auch noch andere Parameter eingeben, welche den Sound beeinflussen, wie etwa die Art der akustischen Umgebung (Hall), welche Art Objekte die Töne machen sollen (etwa das Material, z.B. Holz, Blech) sowie die zeitliche Reihenfolge.

Der Klang einer Dampfmaschine:

Fleisch auf einem Holztisch schneiden:

Für komplexere Geräuschkulissen greifen die Forscher auf die Hilfe der Text-KI ChatGPT zurück, welche zum Beispiel auf den Prompt "Beschreibe den Sound des Weltalls" mit einer ausführlichen Beschreibung antwortet ("Radioemissionen von Sternen, Planeten, Galaxien und anderen Himmelskörpern, High Fidelity, sowie die Geräusche von Sonnenwinden und kosmischer Strahlung"), welche dann als Prompt für MusicLDM verwendet werden kann und folgnden Output generiert:

// Top-News auf einen Blick:

Eigentlich sollte der Quellcode schon zusammen mit der Forschungsarbeit am Montag veröffentlicht werden, das Team hat jedoch aufgrund der gerade angekündigten Urheberrechtsklagen gegen mehrere Bild-KIs jetzt noch davon abgesehen, das Modell (also das Ergebnis des Trainingsprozesses) online zu stellen. Denn zum Training wurde u.a. die bekannte BBC SFX Bibliothek verwendet, welche zwar zum nichtkommerziellen Gebrauch frei verwendet werden darf. Aufgrund der noch ungeklärten Rechtslage ist allerdings nicht klar, ob das auch für das Training von KIs gilt. Nach Klärung soll der Code aber samt Modell veröffentlicht werden.

Beispiele von Musikgenerierung:

Weitere Audio KI Projekte - Video-to-Audio

Wie rasant gerade die Entwicklung im Bereich Audio-KIs voranschreitet, demonstriert die folgende

Timeline:

Innerhalb weniger Tage wurden gleiche mehrere Text-to-Audio KIs ganz unterschiedlicher Qualität wie etwa

Noise-to-Music und Moûsai: Text-to-Audio with Long-Context Latent Diffusion veröffentlicht. Besonders erwähnenswert erscheint uns auch das chinesische Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models Projekt, denn es ermöglicht neben Audio-to-audio auch Image-to-Audio und Video-to-Audio, d.h. es werden Sounds passend zu einem Videoclip produziert.

Hier etwa generiert "Make-An-Audio" automatisch(!) zum Videoclip eines vorbeifahrenden Zuges (Video oben) den entsprechende Sound (Audioclip darunter):

mehr Infos bei
audioldm.github.io

Auf Socials teilen:

Leserkommentare // Neueste

Frank Glencairn // 11:29 am 8.2.2023

Also was Musik betrifft hält sich mein Vertrauen u AI aktuell noch eher in Grenzen :D image_2023-02-08_021332197.png

Drushba // 14:20 am 2.2.2023

Fett.) Gerade im Bereich Kurzfilm/Experimentalfilm genial. Wer sich hier nach Soundlibraries umschaut und seine Mails für Gratiseffekte dalässt, wird mit Audio-super-sales-Spam...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion .....

// 10:57 Mo, 30. Jan 2023von Thomas Richter

News

Editing per Prompt Google Veo am Start - neue Video-KI macht über 60 Sekunden lange Clips

Während das einstige Spitzenmodell OpenAIs Sora noch immer nicht öffentlich ist, geht der Kampf um die beste Video-KI unvermindert geht weiter - jetzt hat Google sein erstmals Mai ...

// 11:52 Fr, 6. Dez 2024von Thomas Richter

News

Text-zu-Video KI jetzt auch von Google: Imagen Video

Nachdem Meta gerade seine Make-a-Video KI zur Generierung von Videos nach Textbeschreibung vorgestellt hatte, hat Google jetzt nachgezogen und mit Imagen Video auch eine solche KI ...

// 16:48 Do, 6. Okt 2022von Thomas Richter

News

Nach der Bild- die Videorevolution: Neue KI "Make-a-Video" generiert Videos nach Text

KIs generieren immer bessere Bilder nach Textbeschreibungen und es war klar, was der nächste Schritt sein würde: das Erstellen von Videos. Jetzt hat Meta AI, die KI ...

// 14:11 Fr, 30. Sep 2022von Thomas Richter

News

Die beste Video-KI Google Veo 2 generiert mehrere Minuten lange 4K Videos

Erst vor knapp zwei Wochen hatte Google eine Preview Version seiner Text-to-Video KI Veo vorgestellt, jetzt ist schon die Version 2 von Veo da. Google DeepMind Veo 2 kann Clips in ...

// 22:49 Mo, 16. Dez 2024von Thomas Richter

zur Newsübersicht >

Viele Verbesserungen Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes

Kaum drei Wochen nach der Veröffentlichung der Version 20 von Resolve hat Blackmagic schon die zweite Beta seines kostenlosen Grading-, Schnitt-, Compositing- und Audio-Mastering-....

// 12:19 Mi, 23. Apr 2025von Thomas Richter

News

E-Mount Zoom Sony stellt FE 50-150mm F2 GM Zoom für Pros vor: Lichtstark, leicht und hochpreisig

Mit dem FE 50-150mm F2 stellt Sony ein bemerkenswert lichtstarkes Vollformat-Zoom vor, das für professionelle Anwender in den Bereichen Hochzeit, Porträt, Indoor-Sport usw. ...

// 08:00 Mi, 23. Apr 2025von Rob

News

Universeller Speicher Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen

Forscher der Fudan-Universität in Shanghai haben einen neuen Geschwindigkeits-Weltrekord für Flash-Speicher aufgestellt. Der von ihnen in 10-jähriger Arbeit entwickelte "PoX" ...

// 10:05 Di, 22. Apr 2025von Thomas Richter

Ratgeber

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Wer die Entwicklung aktueller Video-KI-Modelle verfolgt, sieht fast jeden Tag neue Sensationen. Da liegt es nahe, auch einmal selbst Hand anzulegen, um eigene Erfahrungen mit der ...

// 11:35 Di, 15. Apr 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

zur Artikelübersicht >

Aktuelle News //

News

Das Ende einer Ära DJI beendet Support für Phantom 4 Pro und Advanced

DJI hat offiziell angekündigt, den Support für die zwei letzten noch unterstützten Drohnenmodelle der legendären Phantom Serie von Quadcoptern einzustellen. Die im Jahr 2016 ...

// 11:27 Mi, 30. Apr 2025von Thomas Richter

News

Editing-Workflows Logitech MX Creative Console jetzt auch mit DaVinci Resolve kompatibel

Die Kreativkonsole MX von Logitech - indirekter Nachfolger der eingekauften und eingestellten Loupdeck-Konsolen - lässt sich dank einem neuen Plugin auch mit Blackmagics DaVinci .....

// 15:12 Di, 29. Apr 2025von blip

zur Newsübersicht >