Logo Logo
/// News

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

[10:26 Do,2.Februar 2023 [e]  von ]    

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: hatte Google gerade noch MusicLM vorgestellt, folgt nun wenige Tage später AudioLDM eines Forscherteams der University of Surrey und des Imperial College. Ein auch für Filmemacher sehr vielversprechendes Projekt, denn es synthetisiert nicht nur Musikstücke samt Instrumenten per Textprompt, sondern auch Geräusche (SFX aka Sound Effects). So kann AudioLDM auf Wunsch auch ganze Geräuschkulissen, ideal für die Sounduntermalung von Filmen, produzieren.





Zudem will das Team von AudioLDM das Programm samt Modell per Open Source online stellen, was hieße, dass es nicht nur frei auf dem eigenen Computer genutzt, sondern auch verbessert und in andere Programme eingebunden werden könnte. So könnte es zum Beispiel in Form eines Plugins in Videoschnittprogrammen wie Adobe Premiere oder Blackmagics DaVinci Resolve zur Generierung von Soundkulissen genutzt werden. Für die Nutzung zuhause spricht auch, dass AudioLDM sehr effizient sein soll (d.h. dass es relativ wenig Rechenleistung erfordert) und das Training - zum Beispiel mit eigenen Soundbeispielen - mittels nur einer GPU (wie zum Beispiel einer NVIDIA RTX 3090) erfolgen kann.

AudioDream



Zudem beherrscht AudioLDM praktische Funktionen, welche schon von den Bild-KIs her bekannt sind, wie InPainting (ein Teil einer Audioaufnahme wird passend zum Rest per Textprompt durch einen anderen Sound ersetzt), Styletransfer (eine Melodie wird von einem anderen Instrument gespielt) oder Super Resolution (d.h. bei einer Audioaufnahme von Musik oder Sprache mit geringer Samplingauflösung, wird die Auflösung und damit die Audioqualität per Upsampling erhöht).

Hier ein Beispiel für Styletransfer: Trompete zu Kindergesang


Neben der Beschreibung der Töne, die generiert werden sollen, lassen sich auch noch andere Parameter eingeben, welche den Sound beeinflussen, wie etwa die Art der akustischen Umgebung (Hall), welche Art Objekte die Töne machen sollen (etwa das Material, z.B. Holz, Blech) sowie die zeitliche Reihenfolge.

Der Klang einer Dampfmaschine:


Fleisch auf einem Holztisch schneiden:


Für komplexere Geräuschkulissen greifen die Forscher auf die Hilfe der Text-KI ChatGPT zurück, welche zum Beispiel auf den Prompt "Beschreibe den Sound des Weltalls" mit einer ausführlichen Beschreibung antwortet ("Radioemissionen von Sternen, Planeten, Galaxien und anderen Himmelskörpern, High Fidelity, sowie die Geräusche von Sonnenwinden und kosmischer Strahlung"), welche dann als Prompt für MusicLDM verwendet werden kann und folgnden Output generiert:



AudioLDM-MainFigure
Modell von AudioLDM



Eigentlich sollte der Quellcode schon zusammen mit der Forschungsarbeit am Montag veröffentlicht werden, das Team hat jedoch aufgrund der gerade angekündigten Urheberrechtsklagen gegen mehrere Bild-KIs jetzt noch davon abgesehen, das Modell (also das Ergebnis des Trainingsprozesses) online zu stellen. Denn zum Training wurde u.a. die bekannte BBC SFX Bibliothek verwendet, welche zwar zum nichtkommerziellen Gebrauch frei verwendet werden darf. Aufgrund der noch ungeklärten Rechtslage ist allerdings nicht klar, ob das auch für das Training von KIs gilt. Nach Klärung soll der Code aber samt Modell veröffentlicht werden.

Beispiele von Musikgenerierung:



Weitere Audio KI Projekte - Video-to-Audio


Wie rasant gerade die Entwicklung im Bereich Audio-KIs voranschreitet, demonstriert die folgende
Timeline:

AudioAI-Timeline
Audio AI Timeline



Innerhalb weniger Tage wurden gleiche mehrere Text-to-Audio KIs ganz unterschiedlicher Qualität wie etwa
Noise-to-Music und Moûsai: Text-to-Audio with Long-Context Latent Diffusion veröffentlicht. Besonders erwähnenswert erscheint uns auch das chinesische Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models Projekt, denn es ermöglicht neben Audio-to-audio auch Image-to-Audio und Video-to-Audio, d.h. es werden Sounds passend zu einem Videoclip produziert.

Hier etwa generiert "Make-An-Audio" automatisch(!) zum Videoclip eines vorbeifahrenden Zuges (Video oben) den entsprechende Sound (Audioclip darunter):




Link mehr Informationen bei audioldm.github.io

  
[2 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
Frank Glencairn    11:29 am 8.2.2023
Also was Musik betrifft hält sich mein Vertrauen u AI aktuell noch eher in Grenzen :D image_2023-02-08_021332197.png
Drushba    14:20 am 2.2.2023
Fett.) Gerade im Bereich Kurzfilm/Experimentalfilm genial. Wer sich hier nach Soundlibraries umschaut und seine Mails für Gratiseffekte dalässt, wird mit Audio-super-sales-Spam...weiterlesen
[Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildSamsung Odyssey Neo G70C: 43" Mini-LED Monitor mit SmartTV-Funktionen bildUpdate: Geringere Latenzzeiten für den Accsoon SeeMo HDMI-Adapter


verwandte Newsmeldungen:
Machine Learning:

Wie man einen Videoclip mit KI-Tools produziert - in nur 3 Stunden 24.März 2023
Microsoft mit generativen KI-Modellen für jedermann im Browser - Bing Image Creator 23.März 2023
Adobe kündigt Firefly an: Generative KI-Modelle nun direkt von Adobe 21.März 2023
Runway Gen2: Stable Diffusion Schöpfer stellen neue Text-to-Video-KI vor 20.März 2023
VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC 20.März 2023
Bild-KI Midjourney V5 liefert fotorealistische Bilder - und endlich auch korrekte Hände 19.März 2023
KI verwandelt WLAN Router in Raum-Radar 18.März 2023
alle Newsmeldungen zum Thema Machine Learning

Sound:

Zoom UAC-232 USB Audio Converter: 32-Bit-Float-Audio macht Gain Regler überflüssig 26.Februar 2023
RØDE NT1 5th Generation - Studio-Mikrofon jetzt mit XLR/USB-C und 32 Bit Floating-Point 21.Februar 2023
Tascam Portacapture X6 - mobiler 6-Spur Audiorecorder mit XLR und 32Bit-Float vorgestellt 30.Januar 2023
Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach Textbeschreibung 30.Januar 2023
DJI Mic: Kompaktes Drahtlos-Mikrofonsystem jetzt auch in billigerer Solo-Version 13.Januar 2023
Meta Encodec komprimiert mit KI Audio-Dateien deutlich stärker als MP3 21.November 2022
Noch mehr Black Friday Angebote: Kameras, LED Lichter, Akkus, Mixer, Stative und Kamerazubehör 10.November 2022
alle Newsmeldungen zum Thema Sound


[nach oben]

















passende Forenbeiträge zur News:

Archive

2023

März - Februar - Januar

2022
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 25.März 2023 - 15:02
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*