In unserem allgemeinen Jahresrückblick fand KI nur eine kurze Erwähnung, dennoch hat sich eine Menge getan. Viele Modelle waren im letzten Jahr schnell wieder ein alter Hut, weil sie von neueren, aufregenden Modellen verdrängt worden waren. Große Neuigkeit war vor allem Googles Veo 3, welches erstmals oft gut funktionierende Audio-Tracks zu den KI-Videoclips generieren konnte. Mittlerweile ist auch dies kein Alleinstellungsmerkmal mehr und das Feld der generativen Video KIs gleicht sich gefühlt gerade tendenziell mehr an. Offene Modelle, wie das kürzlich geöffnete LTX-2 können nun mit normalen Gaming-GPUs am heimischen Rechner beachtliche Ergebnisse erzielen. Und auch die Konsistenz von Charakteren und Objekten über die Zeit kann mittlerweile sogar über mehrere Clips hinweg funktionieren.
Doch richtig praktikabel wird das ganze natürlich erst, wenn der Anwender noch mehr direkte Eingriffs- bzw. Korrekturmöglichkeiten erhält. Und genau in dieser Richtung bahnen sich gerade ein paar technische Revolutionen an, welche KI auch im professionellen Umfeld produktiv nutzbar machen werden.
Role Model: Generative KI Audio
Ein interessanter Vorgeschmack findet sich dabei im KI-Audiobereich: Hier stehen unter anderem mit Udio und Suno zwei generative KI-Musik-Generatoren bereit, mit denen sich mittlerweile professionell klingende Songs jeder Musikrichtung per Prompt generieren lassen. Und dennoch gab es bislang eher wenig reale Musiker, welche generative Audio-Generatoren in ihren Musik-Workflow eingebettet haben.
Denn tatsächlich schaffen diese generativen Modelle erst einen wirklichen Mehrwert in der Produktion, wenn man als Produzent noch relevante Eingriffsmöglichkeiten am Endprodukt erhält. Der Stereo-Output-Mix eines Audio Generators ist als fertiger Audio-Track allerdings wenig hilfreich. Nützlicher ist für Musiker und Produzenten dagegen eine Multrack-Timeline, in der man den Song noch in großen Teilen modifizieren kann - also Tracks neu schneiden und mischen, durch Alternativen ersetzen oder Track-Effekte modifizieren.
Stem Separation
Und nun öffnet sich dieser Weg seit geraumer Zeit im Audiobereich. So haben sich sogenannte Stem Separation Tools zu wirklich nutzbaren Werkzeugen für die Musikproduktion entwickelt. Hiermit kann eine gemixte Audiospur nachträglich wieder in einzelne Tracks, in die sogenannten Stems zerlegt werden. So lässt sich beispielsweise Gesang, aber auch die E-Gitarre oder das Schlagzeug aus einem Song extrahieren und nachträglich noch einmal "separat" bearbeiten.
Diese Stem-Separatoren stehen übrigens nicht nur als Webservice unter Suno und Co zur Verfügung, sondern sind auch in vielen DAWs wie Logic Pro oder als Plugin verfügbar. Fakt ist dabei, dass diese mittlerweile auch vermehrt dazu eingesetzt werden, um KI-Songs zu zerlegen - was für ein weiteres "Feintuning" nützlich ist.
Einen besonders aufregend neuen Weg bietet seit kurzem Suno in der Cloud: In Suno Studio sollen traditionelle DAW-Funktionen mit KI-gestützter Musikproduktion vereint werden. Eine Mehrspur-Timeline ermöglicht es, wie in einer klassischen DAW Musik mit voller kreativer Kontrolle zu layern, zu arrangieren und umzugestalten. Mit Suno Studio können die einzelnen Tracks jedoch auch aus KI-Stems stammen. So lassen sich neue Instrumentenspuren wie Basslinien, Percussion oder Melodien durch generative Befehle hinzufügen. Dies kann ein Prompt sein, aber ebenso eine gesummte Melodie, die man dann beispielsweise in ein Saxophon "rendert".
Im folgenden Youtube-Video kann man sich einmal näher ansehen, wie das in der Praxis funktioniert:



















