Generative Audio Nvidia zeigt Fugatto - KI-Sounddesigner, Audiotool und Mitmusiker

// 15:08 Sa, 30. Nov 2024von Rudi Schmidts

Nvidia hat im Bereich generativer Audio-KI eine Art Schweizer Taschenmesser entwickelt. Es nennt sich "Fugatto" (Foundational Generative Audio Transformer Opus 1) und generiert oder transformiert beliebige Mischungen aus Musik, Stimmen und Geräuschen, die mit Eingabeaufforderungen beschrieben werden, unter Verwendung beliebiger Kombinationen aus Text- und Audiodateien.

So kann es beispielsweise einen Musikausschnitt auf Grundlage einer Textaufforderung erstellen, Instrumente aus einem vorhandenen Lied entfernen oder hinzufügen, den Akzent oder die Emotion einer Stimme ändern – oder auch neuartige Klänge produzieren, die man noch nie zuvor hören konnte.

Im Gegensatz zu stark spezialisierten Modellen beherrscht Fugatto als Foundation-Modell zahlreiche, höchst unterschiedliche Aufgaben zur Audio-Generierung bzw. -Transformation und ist laut Nvidia das erste grundlegende Modell generativer KI, das emergente Eigenschaften aufweist. Das sind Fähigkeiten, die sich aus der Interaktion seiner verschiedenen trainierten Fähigkeiten ergeben. Und damit auch die Fähigkeit, frei formulierte Anweisungen zu kombinieren.

Musikproduzenten könnten Fugatto beispielsweise verwenden, um schnell einen Prototypen einer Songidee zu erstellen oder diese zu bearbeiten und dabei verschiedene Stile, Stimmen und Instrumente auszuprobieren. Sie könnten auch Effekte hinzufügen und die allgemeine Audioqualität eines vorhandenen Titels verbessern.

Eine Werbeagentur könnte Fugatto einsetzen, um eine bestehende Kampagne schnell auf mehrere Regionen oder Situationen auszurichten und den Voiceovers unterschiedliche Akzente und Emotionen zu verleihen.

Sprachlerntools könnten personalisiert werden, um jede vom Sprecher gewünschte Stimme zu verwenden. Videospielentwickler könnten das Modell verwenden, um vorab aufgezeichnete Assets in ihrem Titel zu ändern, damit sie der sich ändernden Handlung während des Spiels der Benutzer entsprechen. Oder sie könnten spontan neue Assets aus Textanweisungen und optionalen Audioeingaben erstellen.

// Top-News auf einen Blick:

Eine der Fähigkeiten des Modells, auf die die Entwickler besonders stolz sind, ist das, was man im Bereich Generativer Bild-KI einen Avocado-Stuhl nannte. Fugatto kann zum Beispiel eine Trompete bellen oder ein Saxophon miauen lassen. Was auch immer Benutzer beschreiben können, das Modell kann es erstellen.

Durch Feintuning mit wenigen Gesangsdaten soll sogar die Erzeugung einer hochwertigen Singstimme aus einer Textaufforderung möglich sein.

Während der Inferenz verwendet das Modell eine Technik namens ComposableART, um Anweisungen zu kombinieren, die während des Trainings nur einzeln angezeigt wurden. Eine Kombination von Eingabeaufforderungen könnte beispielsweise nach einem Text fragen, der mit einem traurigen Gefühl und französischem Akzent gesprochen wird. Die Fähigkeit des Modells, zwischen Anweisungen zu interpolieren, gibt Benutzern eine fein abgestufte Kontrolle über Textanweisungen, in diesem Fall über die Stärke des Akzents oder den Grad der Trauer.

Das Modell kann auch Klänge oder Soundlandschaften erzeugen, die sich mit der Zeit verändern (zeitliche Interpolation). Und anders als die meisten Modelle, die nur die Trainingsdaten reproduzieren können, denen sie ausgesetzt waren, ermöglicht Fugatto den Benutzern damit sogar die Möglichkeit noch nie dagewesener Klanglandschaften, wie etwa ein Gewitter, das in die Morgendämmerung übergeht, begleitet vom Klang singender Vögel.

Noch gibt es zu Fugatto nur eine Github-Seite mit Demo-Ergebnissen sowie ein Paper, aber keinerlei Information, wie und ob Nvidia einen öffentlichen Zugang zu dem Modell plant. Allerdings wird das Gebiet "generative Audio" ja gerade auch von anderen KI-Größen wie Google entdeckt.

mehr Infos bei
blogs.nvidia.com

Auf Socials teilen:

Leserkommentare // Neueste

j.t.jefferson // 11:27 am 2.12.2024

ich hab bei einem laufenden Projekt auch schon udio benutzt um Musik zu generieren. Allerdings ist das dann nur eine ungefähre Ausrichtung für mich gewesen um das ganze dann am...weiterlesen

ruessel // 09:44 am 1.12.2024

Ich bin hier zum ersten mal von der KI Leistung (Ergebnis) wirklich beeindruckt. Klar, der erste Gedanken war, jetzt geht es den "kreativen" ernsthaft an den Hals bzw. an den...weiterlesen

Frank Glencairn // 08:27 am 1.12.2024

Deja-Vue

Im Forum mitdiskutieren >>

Ähnliche News //

News

Adobe führt Credit-basiertes Modell für generative KI ein (und die Creative Cloud ...

Zur IBC präsentierte Adobe aktuelle Beta-Versionen von Premiere Pro und After Effects mit interessanten Neuigkeiten, wie bereits beschrieben. Zeitgleich wurden auch die neuen ...

// 18:59 Mo, 18. Sep 2023von blip

News

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: ...

// 10:26 Do, 2. Feb 2023von Thomas Richter

News

135mm F1.4 / 35mm F1.2 SIGMA erweitert ART-Serie um zwei lichtstarke Objektive

Zwei neue, lichtstarke Objektive in der ART-Serie ergänzen das Sigma Lineup – das 135mm F1.4 DG | Art und das überarbeitete 35mm F1.2 DG DN II | Art. Beide Vollformat-Brennweiten ....

// 17:10 Di, 9. Sep 2025von Thomas Richter

News

Mit freier Open Source Version Neue Bild-KI FLUX.1 "made in Germany" - besser als DALL-E 3 und Midjourney?

Ein deutsches Team von erfahrenen Entwicklern im Bereich generativer KI hat heute seine erste Bild-KI veröffentlicht - sie erscheint unter dem Dach des neu geründeten, auf Bild- .....

// 18:26 Do, 1. Aug 2024von Thomas Richter

News

Editing per Prompt Google Veo am Start - neue Video-KI macht über 60 Sekunden lange Clips

Während das einstige Spitzenmodell OpenAIs Sora noch immer nicht öffentlich ist, geht der Kampf um die beste Video-KI unvermindert geht weiter - jetzt hat Google sein erstmals Mai ...

// 11:52 Fr, 6. Dez 2024von Thomas Richter

zur Newsübersicht >

Kostenlose Profi-Kamera-App Blackmagic Camera for Android 3.2 bringt H.265-, SRT-Streaming und mehr

Blackmagic hat wieder eine neue Version seiner kostenlosen professionellen Camera App für Android veröffentlicht. Die Version 3.2 bringt mehrere Funktionen, die vor allem Live-...

// 15:18 Do, 27. Nov 2025von Thomas Richter

Aktuelles

Community-Umfrage Sony und slashCam verlosen eine FX2 Cinema Line Kamera

Weihnachten steht vor der Tür - und Sony hat ein besonderes Geschenk für die slashCam Community in Petto: Wer Glück hat, kann sich demnächst eine Sony FX2 unter den Baum legen. ...

// 22:13 Mo, 1. Dez 2025von slashCAM

Test

Die beste Einsteiger-Drohne? DJI Neo 2: Verbesserte Mini-Drohne für Solo-Creator und Einsteiger

Mit der Neo 2 stellt DJI seine weiterentwickelte Einsteiger- und Selfie Drohne Neo 2 vor. Hinzugekommen sind wichtige Funktionen wie Hinderniserkennung, verbessertes Active Track, ...

// 14:39 Do, 27. Nov 2025von Rob

Test

Halbe Portion? Blackmagic PYXIS 12K - Sensor-Test - Rolling Shutter und Dynamik

Die PYXIS Serie bedient den Wunsch vieler Anwender nach einer riggingfähigen Boxed-Kamera. Mit der PYXIS 12K findet nun der Sensor aus der großen URSA CINE 12K in diesem kleineren ...

// 10:47 Di, 25. Nov 2025von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Test

Drei Nikon Z 9 Lesertests aus der professionellen Praxis + Bekanntgabe des Z 9 Gewinners

Drei slashCAM-Leser aus dem Pro-Umfeld testeten die Flaggschiff Nikon Z 9. Um die teils sehr aufwendigen und auf hohem Niveau gesammelten Praxis-Erfahrungen möglichst ungefiltert ...

// 14:46 Fr, 3. Mär 2023von slashCAM

Aktuelles

Generative KI Videos OpenAI Sora 2 - Nutzungsrichtlinie entfacht internationalen Urheberrechtsstreit

Die Frage, wie man gesetzlich das Urheberrecht für generative KI-Inhalte regeln soll droht von der normativen Kraft des Faktischen überholt zu werden.

// 17:35 Mo, 20. Okt 2025von Rudi Schmidts

zur Artikelübersicht >

Aktuelle News //

News

Multimodale KI-Modelle ByteDance Vidi2 produziert selbstständig fertige Videos aus Rohmaterial

Chinas ByteDance eröffnet den Dezember KI-Präsentationsreigen und demonstriert mit Paper und Demo ihr neuestes multimodales KI-Modell Vidi 2. Multimodale Modelle akzeptieren ...

// 15:54 Mo, 1. Dez 2025von Rudi Schmidts

News

Bessere MetadatenOrga Blackmagic DaVinci Resolve 20.3 bringt Support für 32K-Workflows und mehr

Blackmagic hat gerade die neue Version 20.3 seines kostenlosen Grading-, Schnitt-, Compositing- und Audio-Mastering-Programms DaVinci Resolve (Studio) veröffentlicht. Die neue ...

// 12:39 Mo, 1. Dez 2025von Thomas Richter

zur Newsübersicht >