UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

基于规则的强化学习(RL/RFT)显著提升了GUI智能体的动作预测能力。研究团队设计了独特的奖励函数,精选高质量样本,并采用GRPO算法,显著改善了模型在不同平台的表现,验证了数据质量的重要性和强化学习的潜力。

🎯

关键要点

  • 基于规则的强化学习(RL/RFT)提升了GUI智能体的动作预测能力。
  • 研究团队设计了独特的奖励函数,规避人工标注成本。
  • 首次将基于规则的强化学习应用于GUI智能体领域。
  • UI-R1模型通过多模态大语言模型生成响应轨迹,并通过奖励函数评估。
  • 奖励函数包含动作类型奖励、动作参数奖励和格式规范奖励三个维度。
  • 数据制备方面,筛选了130余个高质量样本,展现出卓越的数据效率。
  • UI-R1在桌面端和网页平台上取得显著性能提升,验证了规则RL的潜力。
  • UI-R1模型的三个关键创新包括独特的奖励函数设计、精心筛选的高质量数据和群体相对策略优化算法。
  • 实验结果显示,UI-R1在域内和域外的准确率均有显著提升。
  • 数据质量比数据数量更重要,困难样本更有价值。
  • 未来将探索将UI-R1从RFT拓展到SFT + RFT的组合。

延伸问答

什么是UI-R1模型,它的主要创新点是什么?

UI-R1模型是基于规则的强化学习应用于GUI智能体的模型,主要创新点包括独特的奖励函数设计、精心筛选的高质量数据和群体相对策略优化算法。

UI-R1模型如何提升GUI智能体的动作预测能力?

通过设计独特的奖励函数和精选高质量样本,UI-R1模型显著提高了模型在不同平台的表现,验证了数据质量的重要性。

UI-R1模型的奖励函数包含哪些维度?

奖励函数包含动作类型奖励、动作参数奖励和格式规范奖励三个维度。

UI-R1在实验中表现如何?

实验结果显示,UI-R1在域内和域外的准确率均有显著提升,特别是在桌面端和网页平台上表现出色。

数据质量在UI-R1模型中有多重要?

数据质量比数据数量更重要,困难样本更有价值,精选小数据集比大数据集更有效。

未来UI-R1模型的研究方向是什么?

未来将探索将UI-R1从RFT拓展到SFT + RFT的组合,实现大规模UI数据下统一的思考、决策、规划的GUI Agent大模型。

➡️

继续阅读