量子位 ·

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

💡 原文中文，约7500字，阅读约需18分钟。

📝

内容提要

复旦大学与通义实验室联合提出ToolCUA，旨在优化计算机使用代理（CUA）在GUI与工具调用之间的选择。研究表明，直接连接工具未能提升模型性能，反而导致准确率下降。ToolCUA通过生成混合轨迹数据，帮助模型学习何时使用GUI或工具，从而提高任务执行效率。在OSWorld-MCP上的评测结果显示，ToolCUA取得46.85%的准确率，显著优于其他模型，展示了其在复杂任务中的有效性和灵活性。

🎯

关键要点

复旦大学与通义实验室联合提出ToolCUA，旨在优化计算机使用代理（CUA）在GUI与工具调用之间的选择。
研究表明，直接连接工具未能提升模型性能，反而导致准确率下降。
ToolCUA通过生成混合轨迹数据，帮助模型学习何时使用GUI或工具，从而提高任务执行效率。
ToolCUA-8B在OSWorld-MCP上取得46.85%的准确率，显著优于其他模型，展示了其在复杂任务中的有效性和灵活性。
ToolCUA的设计包括三个步骤：合成工具库、生成工具轨迹和生成混合轨迹。
ToolCUA的奖励机制包括工具适用性奖励和路径效率奖励，旨在提高模型的工具使用和路径选择能力。
ToolCUA在真实环境中进行长程任务的路径选择，展示了其在多种应用场景中的有效性。
ToolCUA的训练结果显示，混合动作空间的训练比纯GUI训练更有效，提升了模型的跨平台泛化能力。

🔎

延伸解读

ToolCUA的创新训练方法

ToolCUA通过生成混合轨迹数据，解决了模型在GUI与工具调用之间的选择困境。这种方法不仅提高了模型的准确率，还增强了其在复杂任务中的执行能力。与传统的GUI-only训练相比，ToolCUA的混合训练方式显著提升了模型的跨平台泛化能力，展示了更高的灵活性和效率。

路径选择的挑战

研究表明，模型在GUI和工具之间的路径选择能力至关重要。ToolCUA的设计旨在让模型学会何时使用GUI或工具，避免了工具的过度或不足使用。理解这一点对于开发更高效的计算机使用代理至关重要，尤其是在处理复杂任务时。

实际应用中的优势

ToolCUA在实际应用中展现出明显优势，例如在LibreOffice和VS Code等场景中，通过工具调用实现了更高效的任务执行。这表明，ToolCUA不仅能提高准确率，还能优化操作步骤，减少错误发生的可能性，适应真实环境中的复杂需求。

❓

延伸问答

ToolCUA的主要目标是什么？

ToolCUA的主要目标是优化计算机使用代理（CUA）在GUI与工具调用之间的选择。

ToolCUA如何提高模型的任务执行效率？

ToolCUA通过生成混合轨迹数据，帮助模型学习何时使用GUI或工具，从而提高任务执行效率。

ToolCUA在OSWorld-MCP上的评测结果如何？

ToolCUA-8B在OSWorld-MCP上取得46.85%的准确率，显著优于其他模型。

ToolCUA的训练过程包括哪些步骤？

ToolCUA的训练过程包括合成工具库、生成工具轨迹和生成混合轨迹三个步骤。

ToolCUA的奖励机制是什么？

ToolCUA的奖励机制包括工具适用性奖励和路径效率奖励，旨在提高模型的工具使用和路径选择能力。

ToolCUA在真实环境中的应用效果如何？

ToolCUA在真实环境中进行长程任务的路径选择，展示了其在多种应用场景中的有效性。

🏷️