低帧率语音编解码器:旨在快速高质量语音大型语言模型训练和推理的编解码器
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了在自回归模型中,传统音频编解码器高帧率导致训练和推理缓慢的问题。提出的低帧率语音编解码器(LFSC)采用有限标量量化和对抗训练,能够以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩。实验表明该编解码器使基于大型语言模型的文本到语音推理速度提高约三倍,同时提高了可懂性,音质与之前的模型相当。
本研究提出了低帧率语音编解码器(LFSC),解决了传统音频编解码器高帧率导致训练和推理缓慢的问题。该编解码器以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩。实验表明,该编解码器提高了基于大型语言模型的文本到语音推理速度约三倍,同时音质与之前的模型相当。