Logo Logo
/// News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach Textbeschreibung

[10:57 Mo,30.Januar 2023 [e]  von ]    

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion per Textprompt Musik (statt Bilder) generiert.


SD-Robot-Music
Robot Musiker - imaginiert von Stable Diffusion


Die neue Text-to-Music KI mit dem Namen "MusicLM" kann aus Textbeschreibungen Musik mit 24 kHz erzeugen, welche über mehrere Minuten hinweg konsistent bleibt. MusicLM wurde mit einem Datensatz von 280.000 Stunden Musik trainiert, um zu lernen, Musikstücke nach komplexen Beschreibungen wie zum Beispiel "Eine Verschmelzung von Reggaeton und elektronischer Tanzmusik, mit einem spacigen, jenseitigen Sound. Die Musik soll ein Gefühl von Staunen und Ehrfurcht hervorrufen und gleichzeitig tanzbar sein" zu generieren.

Erstaunlich ist die Bandbreite der von MusicML erzeugten Musik - sie reicht von Volksmusik und klassischer Musik über Jazz, Pop, Rap und Reggae bis hin zu Techno, 8-Bit Computermusik oder Death Metal. Wie schon bei den Bild- und Text-KIs zeigt sich, daß ein Bild-/Text- oder auch Musik-Stil für eine KI auch nur ein Parameter ist - ebenso die Instrumentierung. So lassen sich mit der Musik-KI beliebige wilde Crossovermixe generieren wie Metalmusik mit Akkordeons, rappende Streichquartette und alle möglichen anderen Kombinationen.



musicolors



Interessant ist auch die Möglichkeit, der KI eine zum Beispiel gepfiffene oder gesummte Melodie zu präsentieren, welche dann als Vorlage dient, um darauf basierende Musik in einem per Textbeschreibung definierten Stil zu produzieren.

Hier ein Input durch ein gesummtes "Bella Ciao":


per Music ML wird daraus eine elektronische Synthie-Version:


oder Jazz mit Saxophon:


oder ein Piano-Solo:


Als Textprompt für MusicML können neben anderen Instrumentierungen ebenso auch abstrakte Beschreibungen dienen wie auch ein bestimmter Ort (z. B. Konzertsaal), Stimmungen, Musikstile oder Kombinationen aus diesen. Für jede Beschreibung können auch immer beliebige Variationen erzeugt werden - im Programm gibt es vermutlich wie auch bei den Bild- oder Text-KIs noch eine Reihe von Parametern, anhand derer man die Variationsbandbreite der Resultate beeinflussen kann. Die Länge der generierten Sounds reicht von kurzen Jingels bis hin zu mehrminütigen Musikstücken. Die resultierenden Tracks sind oft überraschend kohärent und die Instrumentierung klingt realistisch, manchmal sind die erzeugten Melodien und Töne aber auch etwas schräg. Wie immer gilt aber auch hier: bei der rasenden Entwicklung im Bereich KI wird schon die nächste und erst recht übernächste Generation deutlich besser sein.

electro-swing
Electro Swing Tänzer - imaginiert von Midjourney



Eher misslungen der Versuch von MusicML von Swing:


Ideal zum Beispiel für Filmmusik ist der Story Mode, in welchem ein dynamischer Soundtrack anhand einer Reihe aufeinanderfolgender Textbeschreibungen generiert werden kann und die so definierten Sounds lückenlos ineinander übergehen. Im folgenden Stück lauten die entsprechenden Prompts in 15 Sekunden Abständen "time to meditate", "time to wake up" , "time to run" und "time to give 100%":



colorsynths



Noch nicht öffentlich wegen Copyrightbedenken


Da bei Tests rund 1% der generierten Musikstücke schlichte Kopien aus dem Trainingsmaterial waren, hat Google das MusicML Modell selbst noch nicht öffentlich zugänglich gemacht. Man kann sich aber anhand der zahlreichen Audiobeispiele ein Bild von den Fähigkeiten von MusicML machen, welche auf der Webseite des Projekts präsentiert werden. Wir sind aber sicher, das demnächst konkurrierende Text-to-Music KIs erscheinen werden, darunter bestimmt auch Open Source Versionen.

Lustigerweise hat die neue Musik-KI ähnliche Probleme mit menschlicher Sprache wie die Bild KIs Probleme mit Texten haben - sie kann zwar Gesang generieren, aber nur in einer Art Kauderwelsch, der sich wie eine Sprache anhört, wie hier bei einem Versuch von Operngesang und Indie Folk Hip Hop zu hören:





midjourney-music-robot
Robot Musiker - imaginiert von Midjourney



Per KI wird jeder zum Künstler - oder nicht?


Nach Text-to-Image, Text-to-Text (und den noch in den Kinderschuhen steckenden Text-to-Video) KIs kommen jetzt also Text-to-Music KIs, welche das Zeug dazu haben, auch diesen Bereich menschlichen Schaffens zu revolutionieren - zum Guten wie zum Schlechten. Jeder kann so per KI zum Autor, Maler oder Komponisten werden, ohne es wirklich zu sein. Klar ist, daß es eine Flut von neuen, mehr oder weniger automatisch erzeugten (KI-)Schöpfungen geben wird, seien es Texte, Bilder oder Sounds. In allen Bereichen der Gesellschaft wird dies Folgen haben und einerseits Menschen arbeitslos machen, andererseits sicher auch wunderbare neue Werke hervorbringen, die nicht mehr von menschengeschaffenen unterscheidbar sein werden. Was ist, wenn die Simulation von Kreativität nicht mehr von "echter" Kreativität unterschieden werden kann?

SD-Robot-Music2
Robot Musiker - imaginiert von Stable Diffusion


Begleitet werden wird der Aufstieg der Kreativ-KIs von vielen juristischen Auseinandersetzungen. Enthalten zum Beispiel KI-generierte Songs noch eindeutig identifizierbare Spuren der Originalsongs, mit denen die KI trainiert wurde, dann würde der Urheberrechtsschutz auch hier greifen und eine Lizenzierung notwendig machen.

Im Bereich Musik werden solche Text-2-Music KIs wohl in naher Zukunft die Portale mit GEMA-freier Musik überflüssig machen, denn sie können beliebige Variationen beliebiger Musikstile zum quasi Nulltarif neu generieren, und noch viel besser an die eigenen Wünsche anpassen als die bisherigen, eher simplen Software-Tools.

Link mehr Informationen bei google-research.github.io

  
[36 Leserkommentare] [Kommentar schreiben]   Letzte Kommentare:
Frank Glencairn    17:26 am 25.2.2023
Wow! So ein übles Gedudel hab ich seit den 80er Sonoton Jahren nicht mehr gehört.
Axel    15:21 am 25.2.2023
Ich sah das in meinen Youtube-Vorschlägen ... https://youtu.be/LerDmUg9vqA ... und habe ein wenig mit dem Tool gespielt (ohne zu abonnieren). Die Ergebnisse sind sowohl ziemlich...weiterlesen
Blackbox    19:42 am 1.2.2023
Es gibt ja jetzt auch schon erste Ki's, die erkennen sollen welche Texte von einer Ki geschrieben sind: https://www.computerbase.de/2023-02/cha ... -erkennen/ Bald dann wohl eine...weiterlesen
[ Alle Kommentare ganz lesen]

  Vorige News lesen Nächste News lesen 
bildOscars 2023: Mit welchen Kameras wurden die nominierten Filme gedreht? bildTascam Portacapture X6 - mobiler 6-Spur Audiorecorder mit XLR und 32Bit-Float vorgestellt


verwandte Newsmeldungen:
Sound:

Zoom UAC-232 USB Audio Converter: 32-Bit-Float-Audio macht Gain Regler überflüssig 26.Februar 2023
RØDE NT1 5th Generation - Studio-Mikrofon jetzt mit XLR/USB-C und 32 Bit Floating-Point 21.Februar 2023
Neue Audio KI generiert neben Musik auch beliebige Soundeffekte 2.Februar 2023
Tascam Portacapture X6 - mobiler 6-Spur Audiorecorder mit XLR und 32Bit-Float vorgestellt 30.Januar 2023
DJI Mic: Kompaktes Drahtlos-Mikrofonsystem jetzt auch in billigerer Solo-Version 13.Januar 2023
Meta Encodec komprimiert mit KI Audio-Dateien deutlich stärker als MP3 21.November 2022
Noch mehr Black Friday Angebote: Kameras, LED Lichter, Akkus, Mixer, Stative und Kamerazubehör 10.November 2022
alle Newsmeldungen zum Thema Sound

Machine Learning:

Insta360 Flow - Smartphone-Stabilisator mit KI-Tracking vorgestellt 29.März 2023
Runway Gen-1 jetzt verfügbar- teurer KI-Videogenerator für die ersten Schritte 28.März 2023
So sehen die per KI generierten Gewinnerfilme des Runway KI-Filmfestivals aus 27.März 2023
Wie man einen Videoclip mit KI-Tools produziert - in nur 3 Stunden 24.März 2023
Microsoft mit generativen KI-Modellen für jedermann im Browser - Bing Image Creator 23.März 2023
Adobe kündigt Firefly an: Generative KI-Modelle nun direkt von Adobe 21.März 2023
Runway Gen2: Stable Diffusion Schöpfer stellen neue Text-to-Video-KI vor 20.März 2023
alle Newsmeldungen zum Thema Machine Learning


[nach oben]

















passende Forenbeiträge zur News:

Archive

2023

März - Februar - Januar

2022
Dezember - November - Oktober - September - August - Juli - Juni - Mai - April - März - Februar - Januar

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000






































update am 30.März 2023 - 22:03
ist ein Projekt der channelunit GmbH
*Datenschutzhinweis*