Low Frame-rate Speech Codec: A Codec Designed for Fast and High-quality Speech Large Language Model Training and Inference
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种低帧率语音编解码器(LFSC),旨在提高训练和推理速度。LFSC通过有限标量量化和对抗训练,以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩,推理速度提高约三倍,同时保持音质和可懂性。
🎯
关键要点
- 本研究提出了一种低帧率语音编解码器(LFSC),旨在解决传统音频编解码器在自回归模型中导致的训练和推理速度慢的问题。
- LFSC采用有限标量量化和对抗训练,以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩。
- 实验表明,LFSC使基于大型语言模型的文本到语音推理速度提高约三倍,同时保持音质和可懂性。
➡️