NotionNext BLOG ·

Aguvis：提升的不仅是 UI Agent 的规划推理能力

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

本文介绍了香港大学与Salesforce合作的Aguvis项目，旨在提升图形用户界面中的规划推理能力。Aguvis构建了统一的基础和推理大数据集，采用两阶段训练方式，显著提升了模型性能。通过内心独白数据，模型在复杂任务的推理和规划方面表现更佳。未来的优化方向包括提高指令清晰度和开发自适应规划机制。

🎯

🔎

Aguvis项目通过构建统一的基础和推理大数据集，采用两阶段训练方式，显著提升了图形用户界面中的规划推理能力。这种创新不仅提高了模型的性能，还为未来的AI应用提供了新的思路，尤其是在复杂任务的处理上。

内心独白数据（IM）在Aguvis中起到了关键作用，它通过提供观察描述、内部推理和低级动作指令，帮助模型在复杂任务中进行更有效的推理和规划。这种数据的使用使得模型能够更好地理解任务背景，从而提升决策的准确性。

尽管Aguvis在模型性能上取得了显著进展，但未来的优化方向仍面临挑战。提高指令清晰度和开发自适应规划机制是关键，这不仅需要技术上的突破，还需要对用户需求的深入理解，以确保模型能够适应多样化的任务场景。

❓

Aguvis项目旨在提升图形用户界面中的规划推理能力。

Aguvis通过构建统一的基础和推理大数据集，并采用两阶段训练方式显著提升模型性能。

内心独白数据用于复杂任务的推理和规划，包含观察描述、内部推理和低级动作指令。

通过Grounding Packing Strategy，训练效率提升了5倍，减少了GPU使用时间。

未来的优化方向包括提高指令清晰度和开发自适应规划机制，以应对更多任务类型。

Aguvis项目由香港大学与Salesforce合作。

🏷️