Ein Team vom AI Lab von ByteDance, der Muttergesellschaft von TikTok, hat eine neue, auf neuronalen Netzen basierende Methode vorgestellt, um Musikaufnahmen in mehrere einzelne Tonspuren zu zerlegen. Das folgende Beispiel demonstriert eindrücklich, was der neue Algorithmus vermag: er kann ziemlich sauber die Gesangsspur von der musikalischen Begleitung trennen oder auch das Schlagzeug oder den Bass - und die Musik ohne Bass und Schlagzeug anspielen.
Einsetzen läßt sich die Methode für verschiedene Zwecke: natürlich ist sie perfekt zum Remixen von Musik, wenn man nicht über die einzelnen Spuren der Originalaufnahme verfügt - bei Gesangsaufnahmen in Videos könnten so theoretisch auch nachträglich noch die Stimmen in einer anderen Sprache gedubbt werden. Interessant wäre ein Versuch, ob der Algorithmus auch in der Lage ist, Stimmen aus Aufnahmen vor einer Geräuschkulisse zu extrahieren - er ließe sich dann wie ein intelligenter Rauschfilter nutzen, um nachträglich klarere Aufnahmen zu produzieren.
Wie immer steht der
Python-Programmcode für Kundige zum Download und für eigene Tests bereit. User können so Songs in die verschiedene Tonspuren aufteilen und auch ihre eigenen Systeme zur Trennung von Musikquellen mit diesem Repository trainieren. Dieses Repository umfasst auch Sprachverbesserung, Instrumententrennung usw.
Wer nicht über die erforderlichen Kenntnisse verfügt, kann den Algorithmus
hier mit einem kleinen Audioschnipsel seiner Wahl selbst ausprobieren (als Input wird eine maximal 10 Sekunden lange Sounddatei im .Wav-Format benötigt) - bei unserem Test hat die Trennung in Stimm- und Begleitspur sehr gut funktioniert.
Musik separieren zum selbst ausprobieren