小红花·文摘

本文介绍了Qwen-Audio预训练音频模型，通过扩大预训练规模和覆盖多项任务和音频类型，提高了通用音频理解能力。通过层次标签序列的条件设计，解决了多任务训练中的干扰问题。Qwen-Audio在多个基准任务上表现出色，无需特定任务的微调。作者还开发了Qwen-Audio-Chat，实现了多轮对话和音频为中心的场景支持。