本文讨论了在真实世界中部署通用机器人策略的挑战,提出了一种名为“部署中学习”(LWD)的框架,通过车队规模的离线到在线强化学习(RL)实现策略的持续改进。该方法结合离线数据和在线交互,利用多样化的部署经验,优化策略以适应新任务和环境。作者提出的分布式隐式价值学习(DIVL)和带有伴随匹配的Q学习(QAM)技术,旨在提高策略的稳定性和泛化能力,实现高效的后训练。
π0.7是一种新型通用机器人模型,具备强大的组合泛化能力。通过多模态数据和详细上下文标注,该模型能够有效执行多样化任务,并在新任务中展现灵巧技能。它结合了人类视频和机器人自主数据,提升了在复杂环境中的表现。引入子目标图像和任务元数据增强了模型的指令理解和执行能力,使其在多样化数据上训练时表现出色。
蚂蚁灵波开源的LingBot-VA是全球首个因果视频-动作模型,能够预测未来并执行任务,具备长期记忆和高效泛化能力,适应新任务。通过视频推演,机器人在复杂任务中表现优异,标志着通用机器人进入视频时代。
在北京的世界机器人大会上,智平方展示了具备多任务处理能力的人形机器人爱宝。爱宝通过“超级大脑”GOVLA,实现全域感知、全身协同、长程柔性和快速学习,能够灵活适应不同场景,展现通用机器人的潜力。
本研究探讨了构建通用机器人系统的方法,提出结合模块化设计与大规模学习以提高学习效率。研究表明,该方法能够有效实现零-shot操作,推动通用机器人代理的发展。
本研究提出了一种价值引导政策引导(V-GPS)方法,旨在解决通用机器人在多样化演示数据集上训练时的性能不一致问题。该方法通过离线强化学习的价值函数重新排序机器人的动作,显著提升了不同架构的机器人政策在多种平台和任务上的表现。
本研究提出了GR-2,一个先进的通用机器人代理,旨在解决机器人操作中的可变性和适应性问题。通过对3800万个视频片段进行预训练,GR-2在多种任务和新环境中实现了97.7%的成功率,展现出卓越的多任务学习和泛化能力。
RoboCat是一种自我改进的AI机器人代理,能够通过少量示范学习多种任务,并生成新训练数据以提升技能。它基于多模态模型Gato,结合大量图像和动作数据,快速适应不同的机器人手臂,学习效率高,成功率显著提高,标志着通用机器人发展的重要进展。
完成下面两步后,将自动完成登录并继续当前操作。