小红花·文摘

本文探讨了多种音频语言模型的进展，包括Mockingjay、wave2vec2.0和Qwen-Audio等。这些模型在语音理解、文本到音频生成及多轮对话方面表现优异，尤其是Qwen-Audio通过多任务训练框架显著提升了音频理解能力。此外，AIR-Bench基准为评估音频模型的交互能力提供了新方法，推动了该领域的发展。