别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

💡 原文中文,约7500字,阅读约需18分钟。
📝

内容提要

复旦大学与通义实验室联合提出ToolCUA,旨在优化计算机使用代理(CUA)在GUI与工具调用之间的选择。研究表明,直接连接工具未能提升模型性能,反而导致准确率下降。ToolCUA通过生成混合轨迹数据,帮助模型学习何时使用GUI或工具,从而提高任务执行效率。在OSWorld-MCP上的评测结果显示,ToolCUA取得46.85%的准确率,显著优于其他模型,展示了其在复杂任务中的有效性和灵活性。

🎯

关键要点

  • 复旦大学与通义实验室联合提出ToolCUA,旨在优化计算机使用代理(CUA)在GUI与工具调用之间的选择。

  • 研究表明,直接连接工具未能提升模型性能,反而导致准确率下降。

  • ToolCUA通过生成混合轨迹数据,帮助模型学习何时使用GUI或工具,从而提高任务执行效率。

  • ToolCUA-8B在OSWorld-MCP上取得46.85%的准确率,显著优于其他模型,展示了其在复杂任务中的有效性和灵活性。

  • ToolCUA的设计包括三个步骤:合成工具库、生成工具轨迹和生成混合轨迹。

  • ToolCUA的奖励机制包括工具适用性奖励和路径效率奖励,旨在提高模型的工具使用和路径选择能力。

  • ToolCUA在真实环境中进行长程任务的路径选择,展示了其在多种应用场景中的有效性。

  • ToolCUA的训练结果显示,混合动作空间的训练比纯GUI训练更有效,提升了模型的跨平台泛化能力。

延伸问答

ToolCUA的主要目标是什么?

ToolCUA的主要目标是优化计算机使用代理(CUA)在GUI与工具调用之间的选择。

ToolCUA如何提高模型的任务执行效率?

ToolCUA通过生成混合轨迹数据,帮助模型学习何时使用GUI或工具,从而提高任务执行效率。

ToolCUA在OSWorld-MCP上的评测结果如何?

ToolCUA-8B在OSWorld-MCP上取得46.85%的准确率,显著优于其他模型。

ToolCUA的训练过程包括哪些步骤?

ToolCUA的训练过程包括合成工具库、生成工具轨迹和生成混合轨迹三个步骤。

ToolCUA的奖励机制是什么?

ToolCUA的奖励机制包括工具适用性奖励和路径效率奖励,旨在提高模型的工具使用和路径选择能力。

ToolCUA在真实环境中的应用效果如何?

ToolCUA在真实环境中进行长程任务的路径选择,展示了其在多种应用场景中的有效性。

➡️

继续阅读