Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach Textbeschreibung

// 10:57 Mo, 30. Jan 2023von Thomas Richter

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion per Textprompt Musik (statt Bilder) generiert.

Robot Musician - imagined by Stable Diffusion — Robot Musiker - imaginiert von Stable Diffusion

Die neue Text-to-Music KI mit dem Namen "MusicLM" kann aus Textbeschreibungen Musik mit 24 kHz erzeugen, welche über mehrere Minuten hinweg konsistent bleibt. MusicLM wurde mit einem Datensatz von 280.000 Stunden Musik trainiert, um zu lernen, Musikstücke nach komplexen Beschreibungen wie zum Beispiel "Eine Verschmelzung von Reggaeton und elektronischer Tanzmusik, mit einem spacigen, jenseitigen Sound. Die Musik soll ein Gefühl von Staunen und Ehrfurcht hervorrufen und gleichzeitig tanzbar sein" zu generieren.

Erstaunlich ist die Bandbreite der von MusicML erzeugten Musik - sie reicht von Volksmusik und klassischer Musik über Jazz, Pop, Rap und Reggae bis hin zu Techno, 8-Bit Computermusik oder Death Metal. Wie schon bei den Bild- und Text-KIs zeigt sich, daß ein Bild-/Text- oder auch Musik-Stil für eine KI auch nur ein Parameter ist - ebenso die Instrumentierung. So lassen sich mit der Musik-KI beliebige wilde Crossovermixe generieren wie Metalmusik mit Akkordeons, rappende Streichquartette und alle möglichen anderen Kombinationen.

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach Textbeschreibung

Interessant ist auch die Möglichkeit, der KI eine zum Beispiel gepfiffene oder gesummte Melodie zu präsentieren, welche dann als Vorlage dient, um darauf basierende Musik in einem per Textbeschreibung definierten Stil zu produzieren.

Hier ein Input durch ein gesummtes "Bella Ciao":

per Music ML wird daraus eine elektronische Synthie-Version:

oder Jazz mit Saxophon:

oder ein Piano-Solo:

Als Textprompt für MusicML können neben anderen Instrumentierungen ebenso auch abstrakte Beschreibungen dienen wie auch ein bestimmter Ort (z. B. Konzertsaal), Stimmungen, Musikstile oder Kombinationen aus diesen. Für jede Beschreibung können auch immer beliebige Variationen erzeugt werden - im Programm gibt es vermutlich wie auch bei den Bild- oder Text-KIs noch eine Reihe von Parametern, anhand derer man die Variationsbandbreite der Resultate beeinflussen kann. Die Länge der generierten Sounds reicht von kurzen Jingels bis hin zu mehrminütigen Musikstücken. Die resultierenden Tracks sind oft überraschend kohärent und die Instrumentierung klingt realistisch, manchmal sind die erzeugten Melodien und Töne aber auch etwas schräg. Wie immer gilt aber auch hier: bei der rasenden Entwicklung im Bereich KI wird schon die nächste und erst recht übernächste Generation deutlich besser sein.

Electro Swing dancers - imagined by Midjourney — Electro Swing Tänzer - imaginiert von Midjourney

// Top-News auf einen Blick:

Eher misslungen der Versuch von MusicML von Swing:

Ideal zum Beispiel für Filmmusik ist der Story Mode, in welchem ein dynamischer Soundtrack anhand einer Reihe aufeinanderfolgender Textbeschreibungen generiert werden kann und die so definierten Sounds lückenlos ineinander übergehen. Im folgenden Stück lauten die entsprechenden Prompts in 15 Sekunden Abständen "time to meditate", "time to wake up" , "time to run" und "time to give 100%":

Noch nicht öffentlich wegen Copyrightbedenken

Da bei Tests rund 1% der generierten Musikstücke schlichte Kopien aus dem Trainingsmaterial waren, hat Google das MusicML Modell selbst noch nicht öffentlich zugänglich gemacht. Man kann sich aber anhand der zahlreichen Audiobeispiele ein Bild von den Fähigkeiten von MusicML machen, welche auf der Webseite des Projekts präsentiert werden. Wir sind aber sicher, das demnächst konkurrierende Text-to-Music KIs erscheinen werden, darunter bestimmt auch Open Source Versionen.

Lustigerweise hat die neue Musik-KI ähnliche Probleme mit menschlicher Sprache wie die Bild KIs Probleme mit Texten haben - sie kann zwar Gesang generieren, aber nur in einer Art Kauderwelsch, der sich wie eine Sprache anhört, wie hier bei einem Versuch von Operngesang und Indie Folk Hip Hop zu hören:

Robot Musician - imagined by Midjourney — Robot Musiker - imaginiert von Midjourney

Per KI wird jeder zum Künstler - oder nicht?

Nach Text-to-Image, Text-to-Text (und den noch in den Kinderschuhen steckenden Text-to-Video) KIs kommen jetzt also Text-to-Music KIs, welche das Zeug dazu haben, auch diesen Bereich menschlichen Schaffens zu revolutionieren - zum Guten wie zum Schlechten. Jeder kann so per KI zum Autor, Maler oder Komponisten werden, ohne es wirklich zu sein. Klar ist, daß es eine Flut von neuen, mehr oder weniger automatisch erzeugten (KI-)Schöpfungen geben wird, seien es Texte, Bilder oder Sounds. In allen Bereichen der Gesellschaft wird dies Folgen haben und einerseits Menschen arbeitslos machen, andererseits sicher auch wunderbare neue Werke hervorbringen, die nicht mehr von menschengeschaffenen unterscheidbar sein werden. Was ist, wenn die Simulation von Kreativität nicht mehr von "echter" Kreativität unterschieden werden kann?

Begleitet werden wird der Aufstieg der Kreativ-KIs von vielen juristischen Auseinandersetzungen. Enthalten zum Beispiel KI-generierte Songs noch eindeutig identifizierbare Spuren der Originalsongs, mit denen die KI trainiert wurde, dann würde der Urheberrechtsschutz auch hier greifen und eine Lizenzierung notwendig machen.

Im Bereich Musik werden solche Text-2-Music KIs wohl in naher Zukunft die Portale mit GEMA-freier Musik überflüssig machen, denn sie können beliebige Variationen beliebiger Musikstile zum quasi Nulltarif neu generieren, und noch viel besser an die eigenen Wünsche anpassen als die bisherigen, eher simplen Software-Tools.

mehr Infos bei
google-research.github.io

Auf Socials teilen:

Leserkommentare // Neueste

Frank Glencairn // 17:26 am 25.2.2023

Wow! So ein übles Gedudel hab ich seit den 80er Sonoton Jahren nicht mehr gehört.

Axel // 15:21 am 25.2.2023

Ich sah das in meinen Youtube-Vorschlägen ... https://youtu.be/LerDmUg9vqA ... und habe ein wenig mit dem Tool gespielt (ohne zu abonnieren). Die Ergebnisse sind sowohl ziemlich...weiterlesen

Blackbox // 19:42 am 1.2.2023

Es gibt ja jetzt auch schon erste Ki's, die erkennen sollen welche Texte von einer Ki geschrieben sind: https://www.computerbase.de...-02/cha ... -erkennen/ Bald dann wohl eine...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Künstler vs KIs: Neues Tool macht Kunstwerke für KIs unverdaulich

Der Boom bildgenerierender KIs, die per Prompt beliebige Bilder erzeugen, hat bei Künstlern große Ängste ausgelöst, kann doch jeder Kunst- oder Künstlerstil - egal ob Malerei, ...

// 19:51 Mo, 20. Feb 2023von Thomas Richter

News

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: ...

// 10:26 Do, 2. Feb 2023von Thomas Richter

News

DALL-E 3 ist da und generiert exaktere KI-Bilder inkl. Text dank ChatGPT-Integration

OpenAI hat die neueste Version seines diffusionsbasierten KI-Bildgenerators DALL-E vorgestellt - er ist nun eng mit ChatGPT verzahnt, was gleich mehrere Vorteile bringt. So sollen ...

// 13:37 Do, 21. Sep 2023von blip

News

Editing per Prompt Google Veo am Start - neue Video-KI macht über 60 Sekunden lange Clips

Während das einstige Spitzenmodell OpenAIs Sora noch immer nicht öffentlich ist, geht der Kampf um die beste Video-KI unvermindert geht weiter - jetzt hat Google sein erstmals Mai ...

// 11:52 Fr, 6. Dez 2024von Thomas Richter

News

Kampf gegen KI-Fakes Neuer Algorithmus erkennt KI-Videos mit 98% Genauigkeit

Als die ersten Videos von OpenAIs Video-KI Sora erschienen, war klar, dass demnächst - früher als erwartet - massenhaft täuschend echt aussehende Filme von KIs generiert werden ...

// 14:14 Fr, 28. Jun 2024von Thomas Richter

zur Newsübersicht >

Top Deals für Filmemacher Erste Black Friday Angebote von Atomos, Nanlite, DZOFILM und mehr

Die vielen Rabattaktionen rund um den Black Friday (der dieses Jahr auf den 28. November fällt) sind immer wieder eine gute Gelegenheit für ein Schnäppchen - gerade wenn man ...

// 12:24 Di, 18. Nov 2025von Thomas Richter

Meinung

Hollywood as a Service? ARRIs Color KnowHow könnte Millionen Wert sein - als Workflow Lizenz für Dritte

Kamera-Hardware und die Color-Science in der Firmware waren bei ARRI bislang untrennbar verbunden. Doch muss das auch weiterhin so sein?

// 15:44 Mo, 17. Nov 2025von Rudi Schmidts

Test

Entry-Level Cinema Kamera Canon EOS C50 im Praxistest: Kompaktes Arbeitstier mit 7K 50p Raw - die neue FX3 Konkurrenz

Mit der EOS C50 rundet Canon sein Cinema EOS Portfolio nach unten hin ab und bringt gleichzeitig einen direkten Konkurrenten zur erfolgreichen Sony FX3 auf den Weg. Wir haben uns ...

// 15:55 Do, 13. Nov 2025von Rob

Test

Alive and Kicking Blackmagic Pocket Cinema Camera 4K Sensor-Test - Wiedersehen mit ProRes RAW

Nachdem Blackmagic seinem Pocket Kamera-Klassiker ein unerwartetes ProRes RAW Update beschert hat, fragen wir uns, für wen sich das neue RAW Format eigentlich lohnt...

// 13:49 Fr, 31. Okt 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Sparen beim Geschenkekauf Weihnachtsangebote für Kameras, Objektive und mehr von Sony, Canon, Nikon, Panasonic, MSI, ...

Wer Anderen oder sich selbst zu Weihnachten eine Kamera, ein besonderes Objektiv, eine Drohne oder etwa einen Laptop schenken will, kann dank der aktuellen speziellen ...

// 18:52 Mi, 11. Dez 2024von Thomas Richter

zur Artikelübersicht >

Aktuelle News //

News

Top Deals für Filmemacher Erste Black Friday Angebote von Atomos, Nanlite, DZOFILM und mehr

Die vielen Rabattaktionen rund um den Black Friday (der dieses Jahr auf den 28. November fällt) sind immer wieder eine gute Gelegenheit für ein Schnäppchen - gerade wenn man ...

// 12:24 Di, 18. Nov 2025von Thomas Richter

News

Leichte Budget-Optiken Meike und Viltrox mit neuen 85mm Portrait-Telebrennweiten

Für Kameras mit Sony E- und Nikon Z-Mount erscheinen zwei neue, günstige Objektive, das Viltrox AF 85mm F2.0 EVO sowie das Meike 85mm f/1.8 SE II. Letzteres ist eine überarbeitete ...

// 09:48 Di, 18. Nov 2025von blip

zur Newsübersicht >