Apple Machine Learning Research ·

AMUSE：用于代理多说话者理解的音视频基准与对齐框架

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

最近的多模态大语言模型（MLLMs）如GPT-4o和Qwen3-Omni在多说话者对话中表现不佳。为此，我们提出了AMUSE基准，以评估模型在复杂音视频交互中的推理能力，并引入RAFT框架，通过奖励优化和自我评估提升模型准确性，实现了39.52%的相对提升。

🎯

🔎

多模态大语言模型（MLLMs）在多说话者对话中面临显著挑战，尤其是在需要跟踪发言者和维持角色的场景中。这种复杂性要求模型不仅要理解音频，还要结合视觉信息进行推理，适用于对话视频助手和会议分析等应用。

AMUSE基准的提出为评估多模态模型在复杂音视频交互中的推理能力提供了新的标准。通过将任务分解为规划、基础和反思步骤，AMUSE能够更全面地测试模型的表现，尤其是在多说话者环境下的表现。

RAFT框架通过奖励优化和自我评估的结合，提升了模型的准确性。这种方法不仅提高了模型在基准测试中的表现，还为多模态模型的代理推理提供了新的思路，展示了数据和参数高效更新的潜力。

❓

AMUSE基准旨在评估模型在复杂音视频交互中的推理能力。

RAFT框架通过奖励优化和自我评估来提升模型的准确性。

当前模型在多说话者推理和非代理及代理评估下表现不一致，且推理能力较弱。

AMUSE基准要求模型将复杂的音视频交互分解为规划、基础和反思步骤。

使用RAFT框架后，我们在基准测试中实现了39.52%的相对提升。

AMUSE和RAFT为检验多模态模型中的代理推理提供了实用平台，提升了模型能力。

🏷️