UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

机器之心 ·

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

基于规则的强化学习（RL/RFT）显著提升了GUI智能体的动作预测能力。研究团队设计了独特的奖励函数，精选高质量样本，并采用GRPO算法，显著改善了模型在不同平台的表现，验证了数据质量的重要性和强化学习的潜力。

🎯

关键要点

基于规则的强化学习（RL/RFT）提升了GUI智能体的动作预测能力。
研究团队设计了独特的奖励函数，规避人工标注成本。
首次将基于规则的强化学习应用于GUI智能体领域。
UI-R1模型通过多模态大语言模型生成响应轨迹，并通过奖励函数评估。
奖励函数包含动作类型奖励、动作参数奖励和格式规范奖励三个维度。
数据制备方面，筛选了130余个高质量样本，展现出卓越的数据效率。
UI-R1在桌面端和网页平台上取得显著性能提升，验证了规则RL的潜力。
UI-R1模型的三个关键创新包括独特的奖励函数设计、精心筛选的高质量数据和群体相对策略优化算法。
实验结果显示，UI-R1在域内和域外的准确率均有显著提升。
数据质量比数据数量更重要，困难样本更有价值。
未来将探索将UI-R1从RFT拓展到SFT + RFT的组合。

❓

延伸问答

什么是UI-R1模型，它的主要创新点是什么？

UI-R1模型是基于规则的强化学习应用于GUI智能体的模型，主要创新点包括独特的奖励函数设计、精心筛选的高质量数据和群体相对策略优化算法。

UI-R1模型如何提升GUI智能体的动作预测能力？

通过设计独特的奖励函数和精选高质量样本，UI-R1模型显著提高了模型在不同平台的表现，验证了数据质量的重要性。

UI-R1模型的奖励函数包含哪些维度？

奖励函数包含动作类型奖励、动作参数奖励和格式规范奖励三个维度。

UI-R1在实验中表现如何？

实验结果显示，UI-R1在域内和域外的准确率均有显著提升，特别是在桌面端和网页平台上表现出色。

数据质量在UI-R1模型中有多重要？

数据质量比数据数量更重要，困难样本更有价值，精选小数据集比大数据集更有效。

未来UI-R1模型的研究方向是什么？

未来将探索将UI-R1从RFT拓展到SFT + RFT的组合，实现大规模UI数据下统一的思考、决策、规划的GUI Agent大模型。

🏷️

继续阅读

GPT-5.5与DeepSeek V4，AI 竞争进入新格局！
GPT-5.5与DeepSeek V4同时发布，标志着AI竞争的新阶段。GPT-5.5重心在Codex，强调编程能力和文档处理。DeepSeek V4在编...
三个文档打造会说话智能体：SOUL USER AGENTS提示词精髓
文章讨论了如何通过三个文档（SOUL.md、USER.md、AGENTS.md）创建更具人性化的智能体。SOUL.md定义智能体的语气和价值观，USER....
开源claude-code-setup：Codex能配得跟Claude Code一样好用！
开源工具claude-code-setup可以将Codex配置得像Claude Code一样好用。用户通过AGENTS.md说明书、config.toml...
Omdia：2025年第四季度，中国大陆云基础设施支出增长26%，AI与智能体成主要驱动力
根据Omdia的研究，预计到2025年第四季度，中国大陆云基础设施服务支出将达到147亿美元，同比增长26%。AI是市场增长的核心驱动力，企业AI应用的深...
世界模型能实时玩了，蚂蚁灵波开源LingBot-World-Fast
蚂蚁集团推出的灵光App新增“体验世界模型”功能，用户可上传图片生成3D世界并进行实时互动。该功能基于开源的LingBot-World-Fast模型，支持...
利用堆叠集成学习，英国研究团队实现251颗盾牌座δ型星星震学指数高精度预测
星震学通过分析恒星振荡信号研究恒星内部结构。盾牌座δ型星因其复杂的脉动模式成为重要研究对象。由于快速自转和多模式混叠，传统方法难以测量关键参数Δν。英国华...