量子位 ·

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

淘天提出的Mobile-R1是一个任务级奖励的交互式强化学习框架，旨在提高移动代理的适应性和探索能力。通过三阶段训练流程和高质量轨迹数据集，Mobile-R1在动态环境中的任务成功率达到49.40%，显著优于其他基准模型。

🎯

关键要点

淘天提出Mobile-R1，是一个任务级奖励的交互式强化学习框架。
Mobile-R1旨在提高移动代理的适应性和探索能力。
现有的移动代理大多依赖于动作级奖励，难以应对动态环境。
Mobile-R1采用多回合、任务导向的学习方式，结合在线学习和轨迹纠错。
训练过程分为三个阶段：格式微调、动作级训练和任务级训练。
团队构建了高质量的轨迹数据集，包含4,635条人工标注轨迹。
训练流程包括初始格式微调、动作级在线训练和任务级在线训练。
实验结果显示，Mobile-R1在任务成功率上达到49.40%，显著优于其他基准模型。
Stage 3的训练进一步增强了Mobile-R1的表现，提升了模型的鲁棒性和适应性。
团队计划全面开源相关资源以促进进一步的研究。

❓

延伸问答

Mobile-R1的主要目标是什么？

Mobile-R1旨在提高移动代理的适应性和探索能力。

Mobile-R1的训练流程分为几个阶段？

Mobile-R1的训练流程分为三个阶段：格式微调、动作级训练和任务级训练。

Mobile-R1在任务成功率上达到了什么水平？

Mobile-R1在任务成功率上达到了49.40%。

Mobile-R1如何处理动态环境中的任务？

Mobile-R1通过多回合、任务导向的学习方式，结合在线学习和轨迹纠错来处理动态环境中的任务。

Mobile-R1使用了什么类型的奖励机制？

Mobile-R1使用了任务级奖励和动作级奖励机制。

团队计划如何促进Mobile-R1的进一步研究？

团队计划全面开源相关资源以促进进一步的研究。

🏷️

继续阅读

教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
Superpowers 为什么能执行长任务且确保交付质量？
Superpowers通过明确需求沟通和任务拆分，优化了AI执行长任务的流程。采用头脑风暴、计划撰写和计划执行的步骤，确保高质量输出。子代理驱动开发模式使...
构建无服务器Kiro调度平台：用Kiro CLI + EventBridge + ECS Fargate实现定时AI任务
Kiro Job Scheduler是一个基于AWS无服务器架构的AI任务调度平台，允许用户通过Web界面配置定时AI任务。用户可以创建自定义Agent、...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...