近期研究表明,强化学习显著提升了音频 LLM 的推理能力。通过 GRPO 方法微调 Qwen2.5-Omni 模型,研究人员在 MMAU 基准测试中取得最佳成绩。仅使用文本数据微调也显著提升了性能,强调了文本推理的重要性。此外,研究生成了两个大规模音频问答数据集,进一步提高了模型的准确性。
阿里通义千问团队于3月27日发布了Qwen2.5-Omni,这是一个支持文本、图像、音频和视频实时交互的多模态大模型。该模型开源,具备卓越的语音生成和多模态性能,适用于多种智能硬件,并在多项基准测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。