美团技术团队 ·

美团 EvoCUA 刷新开源 SOTA，会用电脑还会持续进化的智能体！

💡 原文中文，约11800字，阅读约需28分钟。

📝

内容提要

美团技术团队推出EvoCUA模型，解决了大模型在复杂计算机操作中的数据稀缺和反馈缺失问题。EvoCUA通过可验证数据合成和经验进化学习，在OSWorld评测中取得56.7%的成功率，刷新开源记录，展示了其在GUI智能体领域的有效性。

🎯

🔎

EvoCUA模型通过构建可验证数据合成引擎和高并发交互基础设施，解决了传统大模型在复杂计算机操作中的数据稀缺和反馈缺失问题。这种创新的“交互-反馈-修正”闭环架构，使得模型能够在真实环境中进行有效学习，提升了其在GUI智能体领域的表现。

实验结果表明，高信噪比的数据和多样的先验模式对模型能力的提升至关重要。成功轨迹虽然低噪声，但信息量有限，而失败轨迹则提供了丰富的信息。如何有效处理这些数据，将直接影响模型的学习效果和最终性能。

尽管EvoCUA在OSWorld评测中取得了显著成绩，但与顶尖闭源系统仍存在差距。未来的研究将集中在在线强化学习上，以实现更高水平的自主计算机操作能力。这一方向的探索可能会打破当前模型的性能瓶颈，推动智能体技术的进一步发展。

❓

EvoCUA模型旨在提升计算机操作智能体的能力，突破数据扩展瓶颈。

EvoCUA在OSWorld评测中取得了56.7%的成功率，刷新了开源记录。

EvoCUA通过可验证数据合成和经验进化学习来解决数据稀缺和反馈缺失问题。

EvoCUA的训练过程包括冷启动、拒绝采样微调和强化学习等阶段。

EvoCUA的核心技术架构是构建“交互-反馈-修正”的闭环系统。

未来的工作将聚焦于在线强化学习，以实现完全自主的计算机操作能力。

🏷️