通过探索扩展代理的合成任务生成

通过探索扩展代理的合成任务生成

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

AutoPlay是一种可扩展的任务生成管道,通过探索交互环境生成多样的可执行任务,减少对人工标注的依赖。在Android和Ubuntu应用中分别生成了2万和1万任务,显著提高了成功率。

🎯

关键要点

  • AutoPlay是一种可扩展的任务生成管道,旨在减少对人工标注的依赖。
  • 该方法通过探索交互环境生成多样的可执行任务。
  • AutoPlay分为两个阶段:探索阶段和任务生成阶段。
  • 在探索阶段,MLLM探索代理系统地发现新的环境状态和功能。
  • 在任务生成阶段,任务生成器利用探索轨迹和任务指导提示合成多样的可执行任务。
  • AutoPlay在20个Android应用中生成了2万任务,在13个Ubuntu应用中生成了1万任务。
  • 生成的任务使得大规模任务演示合成成为可能,无需人工标注。
  • 使用AutoPlay生成的任务,移动使用场景的成功率提高了20.0%,计算机使用场景提高了10.9%。
  • 结合MLLM验证器奖励的AutoPlay生成任务,进一步提升了UI代理的强化学习训练效果,增加了5.7%的成功率。
  • AutoPlay被确立为一种可扩展的方法,能够减少对人工标注的依赖。

延伸问答

AutoPlay是什么?

AutoPlay是一种可扩展的任务生成管道,旨在通过探索交互环境生成多样的可执行任务,减少对人工标注的依赖。

AutoPlay的工作流程是怎样的?

AutoPlay分为两个阶段:探索阶段和任务生成阶段。在探索阶段,MLLM探索代理发现新的环境状态;在任务生成阶段,任务生成器利用探索轨迹合成可执行任务。

使用AutoPlay生成的任务有什么效果?

使用AutoPlay生成的任务,移动使用场景的成功率提高了20.0%,计算机使用场景提高了10.9%。

AutoPlay如何减少对人工标注的依赖?

AutoPlay通过探索交互环境生成任务,避免了人工标注的需求,从而实现大规模任务演示合成。

AutoPlay在不同平台上生成了多少任务?

AutoPlay在20个Android应用中生成了2万任务,在13个Ubuntu应用中生成了1万任务。

结合MLLM验证器的任务生成有什么好处?

结合MLLM验证器的任务生成可以进一步提升UI代理的强化学习训练效果,增加5.7%的成功率。

➡️

继续阅读