内容提要
复旦大学与通义实验室联合提出ToolCUA,旨在优化计算机使用代理(CUA)在GUI与工具调用之间的选择。研究表明,直接连接工具未能提升模型性能,反而导致准确率下降。ToolCUA通过生成混合轨迹数据,帮助模型学习何时使用GUI或工具,从而提高任务执行效率。在OSWorld-MCP上的评测结果显示,ToolCUA取得46.85%的准确率,显著优于其他模型,展示了其在复杂任务中的有效性和灵活性。
关键要点
-
复旦大学与通义实验室联合提出ToolCUA,旨在优化计算机使用代理(CUA)在GUI与工具调用之间的选择。
-
研究表明,直接连接工具未能提升模型性能,反而导致准确率下降。
-
ToolCUA通过生成混合轨迹数据,帮助模型学习何时使用GUI或工具,从而提高任务执行效率。
-
ToolCUA-8B在OSWorld-MCP上取得46.85%的准确率,显著优于其他模型,展示了其在复杂任务中的有效性和灵活性。
-
ToolCUA的设计包括三个步骤:合成工具库、生成工具轨迹和生成混合轨迹。
-
ToolCUA的奖励机制包括工具适用性奖励和路径效率奖励,旨在提高模型的工具使用和路径选择能力。
-
ToolCUA在真实环境中进行长程任务的路径选择,展示了其在多种应用场景中的有效性。
-
ToolCUA的训练结果显示,混合动作空间的训练比纯GUI训练更有效,提升了模型的跨平台泛化能力。
延伸问答
ToolCUA的主要目标是什么?
ToolCUA的主要目标是优化计算机使用代理(CUA)在GUI与工具调用之间的选择。
ToolCUA如何提高模型的任务执行效率?
ToolCUA通过生成混合轨迹数据,帮助模型学习何时使用GUI或工具,从而提高任务执行效率。
ToolCUA在OSWorld-MCP上的评测结果如何?
ToolCUA-8B在OSWorld-MCP上取得46.85%的准确率,显著优于其他模型。
ToolCUA的训练过程包括哪些步骤?
ToolCUA的训练过程包括合成工具库、生成工具轨迹和生成混合轨迹三个步骤。
ToolCUA的奖励机制是什么?
ToolCUA的奖励机制包括工具适用性奖励和路径效率奖励,旨在提高模型的工具使用和路径选择能力。
ToolCUA在真实环境中的应用效果如何?
ToolCUA在真实环境中进行长程任务的路径选择,展示了其在多种应用场景中的有效性。