本文介绍了NavFoM,一个跨任务和跨形态的具身导航基础模型。该模型通过处理自我视角视频和语言指令来预测导航轨迹,经过八百万个样本的训练,采用时序-视角指示符token和预算感知时序采样策略,以提升模型的泛化能力和实用性。研究者强调开源和分享对技术影响力的重要性。
UC伯克利等团队研发的LeVERB框架首次实现人形机器人视觉感知与运动控制的结合,机器人能够根据语言指令自动完成复杂动作。在Unitree G1机器人上测试,零样本成功率达到80%,整体任务成功率为58.5%,显著优于传统方法。
本文介绍了DexVLA模型的开发,旨在提升机器人在多样环境中执行复杂任务的能力。通过引入扩散动作专家和具身课程学习,DexVLA优化了机器人对语言指令的理解和动作执行。研究者提出了三阶段训练策略,逐步提高任务复杂性,最终实现高效的衣物折叠等任务。
英伟达发布的GR00T N1模型结合视觉与语言指令,通过双系统架构实现机器人动作生成。该模型利用真实与合成数据进行训练,采用Eagle-2 VLM作为推理模块,DiT模块用于高频动作输出。团队计划在上海建立具身算法开发团队,招聘经验丰富的开发者和实习生。
本研究提出FLARE方法,旨在解决机器人助手在复杂任务规划中对大量标注数据的依赖。该方法结合语言指令与环境感知,生成合理的任务计划,并通过视觉提示修正模糊指令,显著提升规划效果。
本研究提出了一种新方法,通过语言指令来分解服装操控任务,结合大语言模型的层次学习,提高了任务的成功率和泛化能力,具有重要的应用潜力。
这篇文章介绍了一种基于奖励模型的框架,让机器学习代理通过学习语言指令执行任务,无需修改环境奖励函数。方法在简单的网格世界中使代理能够学习块的交互和空间关系指令,并适应环境变化。
研究人员展示了使用RGB传感器的智能体能够根据语言指令熟练地导航、探索和操作对象。他们使用了端到端、基于transformer的SPOC架构和大规模多样化的训练数据。研究人员还开源了他们的模型、数据、训练代码和新的任务基准套件CHORES。
该文介绍了一个新的导航框架,用于在真实世界中解决VLN任务。该框架包括四个关键组成部分,能够将语言指令转换为宏操作描述、构建实时的视觉-语言地图、基于语言索引的定位器以及基于DD-PPO的本地控制器。作者在实验室环境中使用Interbotix LoCoBot WX250对该流程进行了评估,并发现该流程优于SOTA VLN基线。
完成下面两步后,将自动完成登录并继续当前操作。