Logo Logo
/// News

Aus Text wird nun auch Audio: Stable Audio generiert Musik und Soundeffekte per KI

[13:08 Mo,18.September 2023 [e]  von ]    

Mit Stable Diffusion hat Stability AI bereits einen guten Text-to-Image KI-Bildgenerator am Start. Seit kurzem ist nun auch Stable Audio online verfügbar, ein neues Diffusionsmodell mit dem sich - der Name sagt es schon - Audio und Musik aus Textprompts erstellen läßt.

stable_audio_KI_Audiogenerator


Das Stable Audio Modell wurde zu diesem Zweck anstelle von Bildern mit verschiedenen Audioinputs trainiert. Verwendet wurden über 800.000 - lizensierte - Dateien der Audiobibliothek AudioSparks inklusive der jeweiligen Metadaten. Durch dieses kontextreiche Training ist das Modell in der Lage, gepromptete Vorgaben bezüglich Inhalt und Form recht gut einzuhalten, und auch den Output auf die genaue Länge zu timen. Um das Modell auf eine Verbindung zwischen Text und Audio zu konditionieren, wurde beim Training eine Technik namens Contrastive Language Audio Pretraining (CLAP) eingesetzt - genaueres dazu in diesem Blog-Beitrag, in dem auch gute Audiobeispiele eingebettet sind.


stable_audio_modell
Stable Audio, latentes Diffusionsmodell


Generieren lassen sich sowohl Musikstücke mit bis zu 90 Sekunden Länge, als auch einzelne Instrumentspuren oder auch Soundeffekte. Vorgeben lassen sich das Genre, der Stil, die Stimmung, die Instrumentierung, die Geschwindigkeit in BPM und mehr - im Grunde alles, was bei Audiobibliotheken üblicherweise über die Metadaten definiert wird. In einem User-Guide hat StabilityAI einige Prompt-Beispiele zusammengetragen, die von kurz und knackig bis mehrzeilig ausfallen.

Die resultierenden Musikstücke klingen wenig hitverdächtig, um nicht zu sagen teilweise recht erratisch "komponiert". Wobei es auch auf die Art Musik ankommt und auf die Länge; ruhige, ambient-artige Tracks lassen sich z.T. kaum von der typischen, GEMA-freien Hintergrundmusik unterscheiden. Eher brauchbar scheinen uns grundsätzlich die kürzeren Sound-Schnipsel, welche sich als Effektuntermalung generieren lassen, oder vielleicht minimalistisch gehaltene Instrumentausgaben.

Stable Audio ist in einer kostenlosen Version zugänglich, mit welcher sich pro Monat 20x bis zu 45 Sekunden lange Tracks generieren lassen. Das Pro-Abo für 12 Dollar im Monat erlaubt 500 Generierungen von bis zu 90 Sekunden Länge, welch auch in kommerziellen Projekten genutzt werden dürfen. Der Download erfolgt in 44.1 kHz Stereo.

Auch ein Open Source-Modell von Stable Audio soll demnächst veröffentlicht werden, allerdings wird dies mit einem anderen Datensatz trainiert worden sein, aus Lizenzgründen darf man annehmen.

Link mehr Informationen bei www.stableaudio.com

  
[6 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
Drushba    14:31 am 19.9.2023
Also die Ergebnisse für klassische Musik sind .... schräg erhellend.)) Sicher gut verwendbar für atmosphärisches Hintergundrauschen, das von atonalen Musikfetzen durchdrungen...weiterlesen
Cinemator    13:17 am 19.9.2023
Eignet sich vielleicht ganz gut für Imagefilme von Fahrstuhlherstellern. Na ja, es ist immerhin ein Anfang...
macaw    07:30 am 19.9.2023
ROFL. Ich bin ja ein Aphex Twin Fan und damit IDM Fan, was aber bei der Eingabe von IDM rauskam, klang wie eine totale Kakophonie...
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildVideoclip: SmallRigs neuer VB99 PRO Akku, ultrakompakte 60W LED und Smartphone Cage bildVoigtländer Nokton RF 50mm f/1 - Festbrennweite für Canon RF-Mount kommt im Oktober


verwandte Newsmeldungen:
KI:

Google zeigt KI-Bullet-Time Effekt inkl. Slow Motion, Blur und Stabilizer - DynIBaR 30.September 2023
Drehbuchstreik in Hollywood endet nach 148 Tagen mit gutem Deal für Autoren - auch in Punkto KI 27.September 2023
Google Pixel 8 (Pro) - Neue Stufe der "computational" Videografie durch KI? 25.September 2023
YouTube: neue Editing-App verfügbar - und bald kommen die Video-KI-Tools 22.September 2023
DALL-E 3 ist da und generiert exaktere KI-Bilder inkl. Text dank ChatGPT-Integration 21.September 2023
Videoclip: Adobe Premiere Pro erklärt: Mit KI Pausen und Füllwörter schnell entfernen u.v.m. 19.September 2023
Adobe führt Credit-basiertes Modell für generative KI ein (und die Creative Cloud wird teurer) 18.September 2023
alle Newsmeldungen zum Thema KI

Sound:

Grass Valley kündigt EDIUS 11 an mit KI-Funktionen, neuem Audio Editor und mehr 15.September 2023
Wenn du nur 1 Mikro wählen könntest: Richtrohr, kompaktes Kondensator oder Lavalier? 29.August 2023
YouTube integriert automatisches Audio-Dubbing per KI 31.Juli 2023
RØDE PodMic USB: Studio-Mikrofon mit XLR und USB 25.Mai 2023
Professionellere RED KOMODO-X vorgestellt mit 6K 80p und Mikro-V-Lock 17.Mai 2023
Deity PR-2 Pocket Audio Recorder: 32-Bit FloatAufnahme und Vorverstärker 12.Mai 2023
Apple Final Cut Pro und Logic Pro kommen noch im Mai aufs iPad - in neuer Abo Version 9.Mai 2023
alle Newsmeldungen zum Thema Sound


[nach oben]

















passende Forenbeiträge zur News:

Archive

2023

Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2022
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 3.Oktober 2023 - 13:27
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*