Das klingt spannend: Meta / Facebook Research haben einen KI-basierten Audio-Codec namens Encodec vorgestellt, der es (zumindest auf dem Forschungspapier) wahrlich in sich hat. Dieser soll gegenüber MP3-Dateien gerade bei sehr geringen Datenraten bei vergleichbarer Qualität noch einmal eine um den Faktor 10 bessere Kompression erzielen.
Dies würde bedeuten, dass sich hiermit MP3-Audiodateien noch einmal durchschnittlich auf ein Zehntel ihres Datenspeicherbedarfs reduzieren ließen. Dies hätte wiederum enorme Auswirkungen auf offline Speicherung und Audio-Streaming.
Der Aufbau von Encodec erinnert dabei stark an typische VACs/GANs. Der Kompressor erzeugt Samples, die ein folgender Diskriminator als echt oder rekonstruiert klassifiziert. Das Kompressionsmodell modifiziert daraufhin seinen Output so lange, bis der Diskriminator alle Samples für echt hält. Gleichzeitig lernt der Diskriminator auch immer verlässlicher "echt" von "rekonstruiert" zu unterscheiden. Dieses Wechselspiel perfektioniert die Audioqualität anschließend bei minimalem Dateneinsatz im Modell.

// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
Laut Meta könne Encodec so Audio mit niedriger Bitrate (64 kb/s) ohne Qualitätsverlust rekonstruieren und habe zudem noch Potenzial für weitere Verbesserungen. So trainierte man zusätzlich ein Transformer-basiertes Sprachmodell, das bei gleichbleibender Qualität weitere 40 Prozent Bandbreite einsparen könnte, wenn die Latenz wie beim Streaming nicht entscheidend sei. Anders gesagt, wenn der Encoder nicht in Echtzeit arbeiten muss, sind für MP3-Audio-Anwendungen noch größere Kompressionsgewinne möglich.
Spezielle Hardware ist für den Einsatz interessanterweise ebenfalls nicht notwendig. Ein einzelner CPU-Kern soll zum En- und Decoding mit dem neuen Verfahren in Echtzeit ausreichen.
Und damit immer noch nicht genug. Meta hat angekündigt, mit KI in einem kommenden Forschungsvorhaben auch Video effektiver komprimieren zu wollen.