量子位 ·

一次示范就能终身掌握！让手机AI轻松搞定复杂操作丨浙大&vivo出品

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

浙大与vivo合作推出LearnAct框架，通过示范学习使手机AI能够在多样场景中完成复杂操作，提升了AI性能，为个性化手机助手奠定基础。

🎯

🔎

LearnAct框架通过示范学习显著提升了手机AI的性能，尤其在复杂应用场景中表现突出。这种方法不仅减少了对大量数据的依赖，还能快速适应用户的个性化需求，提升了用户体验。

手机GUI智能体面临的长尾场景问题，意味着现有的通用模型难以覆盖所有应用和任务。LearnAct框架通过少样本示范学习，提供了一种有效的解决方案，使得智能体能够在多样化的环境中更好地执行任务。

LearnGUI基准的推出为示范学习提供了系统的评估体系，包含大量高质量的示范数据。这一基准不仅支持对不同示范数量对智能体性能影响的研究，还能分析任务相似性对学习效果的影响，为未来的研究奠定了基础。

❓

LearnAct框架通过示范学习使手机AI能够在多样场景中完成复杂操作，仅需一次示范即可教会AI，提升了AI性能。

LearnGUI基准构建了面向移动端示范学习的评估体系，包含2252个离线少样本任务和101个在线任务，提供高质量人类示范。

示范学习通过少样本示范，使智能体能够在有限的示例基础上实现稳健性和个性化，从而应对多样性和长尾场景的挑战。

LearnAct框架由DemoParser、KnowSeeker和ActExecutor三个智能体组成，分别负责理解示范、检索知识和执行操作。

实验结果显示，示范学习显著提升了手机GUI智能体的性能，例如Gemini-1.5-Pro的准确率从19.3%提升至51.7%。

研究背景是手机GUI智能体在多样性和长尾场景中面临的挑战，现有方法难以覆盖所有任务需求，因此需要新的示范学习方法。

🏷️