淘天提出的Mobile-R1是一个任务级奖励的交互式强化学习框架,旨在提高移动代理的适应性和探索能力。通过三阶段训练流程和高质量轨迹数据集,Mobile-R1在动态环境中的任务成功率达到49.40%,显著优于其他基准模型。
完成下面两步后,将自动完成登录并继续当前操作。