KI ist schon in der Musikproduktion angekommen
Jede generierte Instrumentenspur soll in Suno Studio anschließend zu Stil, Tonart und Tempo Ihrer bestehenden Komposition passen. Dies kann die typische Suche in Sample-Bibliotheken ersetzen oder sogar das Engagement von Studiomusikern für benötigte Parts einsparen. Erst kürzlich sprachen wir mit einem an dieser Stelle nicht genannt werden wollenden professionellen Produzenten/Musiker, der für Session-Musiker eine komplett düstere Zukunft prognostiziert. Er selbst nutzt KI-Technologien bereits aktiv, will dies aber nicht offen kommunizieren.
Trotzdem bleibt der Faktor Mensch noch bis auf weiteres im Spiel. Denn einen Song nach den eigenen Ansprüchen verfeinern und finalisieren ist bis auf weiteres noch besser in Menschenhand aufgehoben. Die "Freigabe" wird noch lange eine menschliche Entscheidung sein, sofern man nicht plant, das Netz mit automatisiertem KI-Schund zu fluten.
Das sieht übrigens auch Microsoft-Chef Satya Nadella so. Ihm zufolge liegt die Zukunft der Projektarbeit in der Makrodelegation und der Mikrosteuerung. D.h. man macht bei einem Projekt weniger selbst, sondern splittet die Aufgaben eines Projektes in einzelne KI-Jobs auf. Man steigt also quasi in der Management-Ebene auf und beurteilt nur noch die Ergebnisse seiner KI-Mitarbeiter und fügt diese zusammen. So auch bei einer Audio-Produktion. Wenn ein Teiljob nicht zufriedenstellend ausfällt, promptet man diesen einfach neu. Also "das Gitarrensolo noch etwas rythmischer und das Saxophon etwas weniger dramatisch bitte".
Bald auch für Video?
Was sich hier in der Audioproduktion gerade etabliert, steht dem Videobereich größtenteils noch bevor. Nicht nur in unseren Augen ist die "Take-it-oder leave-it"- Video-Ausgabe aktueller KI-Systeme eine Sackgasse für professionelle Ergebnisse. So genügen ein oder zwei kleine Schnitzer im Video, um den kompletten Output unbrauchbar zu machen.
Hilfreich wäre dagegen manuell noch veränderbarer Output, wie beispielsweise eine Komposition oder eine Timeline, in der man Details noch weiter von Hand ändern kann.
Solange dies nicht der Fall ist, sehen wir auch keine Gefahr von KI für Medienschaffende. Allerdings sehen wir ebenfalls, dass die von uns dargestellten Optionen nicht mehr in allzu ferner Zukunft liegen. Denn im Bildbereich sind bereits entsprechende Entwicklungen auf dem Weg.
So gibt es für Bilder seit kurzem ebenfalls eine Art Stem Separation, welche ein Bild in einzelne Layer aufsplitten kann. Und bei manchen Modellen können überdeckte Hintergründe sogar bei Bedarf automatisch generativ ergänzt werden. D.h. man kann in einem Bild plötzlich Dinge verschieben oder anders anordnen, ohne zu Masken oder Fill-Tools greifen zu müssen.

Der Schritt zum Bewegtbild scheint technisch zwar eine andere Liga, aber wer KI-Weltmodelle vor Augen hat, darf stark annehmen, dass wir Video-Layer-Separation schon bald erleben werden. Und diese neuen Funktionen werden letztlich auch in die professionelle Videobearbeitung einziehen. Der Medienschaffende wird damit noch mehr zum "ausführenden Produzenten" und lässt seine Videos mit diversen Layern separat von KI-Agenten per Prompt ändern, bis das Ergebnis passt. Und es würde uns schon sehr überraschen, wenn es nicht so kommen wird...



















