[10:26 Do,2.Februar 2023 [e] von Thomas Richter] |
Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: hatte Google gerade noch
Zudem will das Team von AudioLDM das Programm samt Modell per Open Source online stellen, was hieße, dass es nicht nur frei auf dem eigenen Computer genutzt, sondern auch verbessert und in andere Programme eingebunden werden könnte. So könnte es zum Beispiel in Form eines Plugins in Videoschnittprogrammen wie Adobe Premiere oder Blackmagics DaVinci Resolve zur Generierung von Soundkulissen genutzt werden. Für die Nutzung zuhause spricht auch, dass AudioLDM sehr effizient sein soll (d.h. dass es relativ wenig Rechenleistung erfordert) und das Training - zum Beispiel mit eigenen Soundbeispielen - mittels nur einer GPU (wie zum Beispiel einer NVIDIA RTX 3090) erfolgen kann. ![]() Zudem beherrscht AudioLDM praktische Funktionen, welche schon von den Bild-KIs her bekannt sind, wie InPainting (ein Teil einer Audioaufnahme wird passend zum Rest per Textprompt durch einen anderen Sound ersetzt), Styletransfer (eine Melodie wird von einem anderen Instrument gespielt) oder ![]() Hier ein Beispiel für Styletransfer: Trompete zu Kindergesang Neben der Beschreibung der Töne, die generiert werden sollen, lassen sich auch noch andere Parameter eingeben, welche den Sound beeinflussen, wie etwa die Art der akustischen Umgebung (Hall), welche Art Objekte die Töne machen sollen (etwa das Material, z.B. Holz, Blech) sowie die zeitliche Reihenfolge. Der Klang einer Dampfmaschine: Fleisch auf einem Holztisch schneiden: Für komplexere Geräuschkulissen greifen die Forscher auf die Hilfe der Text-KI ChatGPT zurück, welche zum Beispiel auf den Prompt "Beschreibe den Sound des Weltalls" mit einer ausführlichen Beschreibung antwortet ("Radioemissionen von Sternen, Planeten, Galaxien und anderen Himmelskörpern, High Fidelity, sowie die Geräusche von Sonnenwinden und kosmischer Strahlung"), welche dann als Prompt für MusicLDM verwendet werden kann und folgnden Output generiert: ![]() Modell von AudioLDM Eigentlich sollte der Quellcode schon zusammen mit der Forschungsarbeit am Montag veröffentlicht werden, das Team hat jedoch aufgrund der gerade angekündigten Urheberrechtsklagen gegen mehrere Bild-KIs jetzt noch davon abgesehen, das Modell (also das Ergebnis des Trainingsprozesses) online zu stellen. Denn zum Training wurde u.a. die bekannte ![]() Beispiele von Musikgenerierung: Weitere Audio KI Projekte - Video-to-AudioWie rasant gerade die Entwicklung im Bereich Audio-KIs voranschreitet, demonstriert die folgende ![]() ![]() Audio AI Timeline Innerhalb weniger Tage wurden gleiche mehrere Text-to-Audio KIs ganz unterschiedlicher Qualität wie etwa ![]() ![]() ![]() Hier etwa generiert "Make-An-Audio" automatisch(!) zum Videoclip eines vorbeifahrenden Zuges (Video oben) den entsprechende Sound (Audioclip darunter): ![]() |
![]() |