VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large-Scale Speech Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出VITA-Audio,一种高效的大规模语音模型,解决了现有模型在流媒体生成首个音频令牌时的高延迟问题。通过引入轻量级的多模态交叉令牌预测模块,该模型显著提高了推理速度,具备实时对话能力,并在多个任务中表现优异。
🎯
关键要点
- VITA-Audio是一种高效的大规模语音模型,旨在解决现有模型在流媒体生成首个音频令牌时的高延迟问题。
- 该模型通过引入轻量级的多模态交叉令牌预测模块,在一次前向传播中生成多个音频令牌,显著提高推理速度。
- VITA-Audio具备实时对话能力,并在多个语音识别、文本语音转换和口语问答任务的基准测试中表现优异。
➡️