Quantification optimisée de l'espace latent en codage audio neuronal
Résumé
This article focuses on audio coding based on artificial neural networks. We propose to analyze and transform the latent space based on an eigenvalue decomposition, in order to modify or even replace the residual vector quantization (RVQ) used in recent codecs such as SoundStream and EnCodec. In particular, the proposed approach brings about 37% of reduction in storage and computational complexity for EnCodec, with no quality degradation.
Cet article se concentre sur le codage audio par réseaux de neurones artificiels. Nous proposons d'appliquer une analyse et une transformation de l'espace latent par décomposition en valeurs propres, afin de modifier voire remplacer la quantification vectorielle résiduelle (RVQ) actuellement utilisée par des codecs récents tels que SoundStream ou EnCodec. L'approche proposée permet en particulier une réduction du stockage et de la complexité d'environ 37% pour EnCodec sans dégrader la qualité audio.
Origine | Fichiers produits par l'(les) auteur(s) |
---|---|
licence |