小红花·文摘

淘天提出的Mobile-R1是一个任务级奖励的交互式强化学习框架，旨在提高移动代理的适应性和探索能力。通过三阶段训练流程和高质量轨迹数据集，Mobile-R1在动态环境中的任务成功率达到49.40%，显著优于其他基准模型。