Kürzlich regte OpenAI mit seiner ersten Video-KI für großes Aufsehen. Die von Sora generierten Clips sind um Längen besser - und damit auch realistischer - als bisherige, aus Textprompts erstellte Videos. Allerdings sind sie stumm, denn eine Tonspur errechnet Sora nicht dazu - eine frappante Parallele zur Frühzeit des Kinos, wie wir finden. Denn vor 130 Jahren, als mit den ersten Kameras bewegte Bilder eingefangen wurden, ließen sich Schallwellen bekanntlich nicht mit dem gleichen Verfahren auf Zelluloid bannen; auch diese Bilder blieben stumm.
Man behalf sich damals mit musikalischer (Live-)Begleitung und sogar gelegentlichen Geräuscheffekten, und genau dies passiert natürlich auch heute. Und was wäre naheligender, als KI-Clips mit KI-Sounds zu unterlegen?
Dafür bringt sich Elevenlabs in Stellung, jenes Unternehmen, dessen breites Repertoir an synthetischen KI-Stimmen bereits professionellen Sprechern Konkurrenz macht. Auch ein Dubbing-Service per KI ist dort mittlerweile im Angebot. "AI Sound Effects" soll nun ein weiterer KI-Dienst werden, über den sich mit einfachen Textprompts Geräusche generieren lassen. Wie dies klingt, führt Elevenlabs passenderweise gleich an einigen von Sora erstellten Szenen vor:
We were blown away by the Sora announcement but felt it needed something...
— ElevenLabs (@elevenlabsio) February 18, 2024
What if you could describe a sound and generate it with AI? pic.twitter.com/HcUxQ7Wndg
// Top-News auf einen Blick:
- Sony A7R VI vorgestellt mit 66,8MP, Dual Gain und bis zu 120min 8K-Videoaufnahme
- Canon stellt EOS R6 V und RF 20-50mm F4 als PowerZoom-Kombination vor
- Panasonic Lumix L10 - Kompaktkamera mit GH7-Sensor und V-Log vorgestellt
- ZineControl - Monitoring und Fernsteuerung per App für die Nikon ZR
- Insta360 Luna Ultra mit dualer 8K-Kamera und abnehmbarem Display geleakt
- DJI Osmo Pocket 4P mit Dual-Kamera und 3x Zoom kommt am 14. Mai - nach Cannes
Wenn man im Schnitt sitzt und seine Bilder mit einigen SoundFX oder einer passenden Geräuschkulisse aufpeppen möchte, dürfte die Möglichkeit willkommen sein, sich über ein kurzes Textprompt die fehlenden Töne selbst erstellen zu können. Als Vorgehen zur Nachvertonung von KI-Stummfilmen dagegen kommt uns Text-zu-SoundFX jedoch eher wie eine Zwischenlösung vor. Deutlich praktischer wäre Video-zu-SoundFX, also eine maßgeschneiderte, komplett automatisch gestrickte Tonbegleitung eines gegebenen Videos. Mit den heutigen multimodalen KI-Modellen sollte es nicht lange dauern, bis dies möglich wird.

Wann die neue Elevenlabs AI Sound Effects Funktion zur Nutzung freigeschaltet wird und was es kosten wird, sich dort künstliche Geräusche errechnen zu lassen, ist noch nicht bekannt.
Eine ähnliche Funktionalität bietet wie berichtet auch beispielsweise das Open Source KI-Tool AudioDLM.



















