小红花·文摘

$NavFoM——打造VLN基础模型：通过安装在机器人上的摄像头和人类下达的指令，预测移动轨迹(可跨任务、跨本体)$

NavFoM——打造VLN基础模型：通过安装在机器人上的摄像头和人类下达的指令，预测移动轨迹(可跨任务、跨本体)

结构之法算法之道 ·

UC伯克利等团队研发的LeVERB框架首次实现人形机器人视觉感知与运动控制的结合，机器人能够根据语言指令自动完成复杂动作。在Unitree G1机器人上测试，零样本成功率达到80%，整体任务成功率为58.5%，显著优于传统方法。

人形机器人首次打通视觉感知与运动断层，UC伯克利华人博士让宇树G1现场演示

量子位 ·

本文介绍了DexVLA模型的开发，旨在提升机器人在多样环境中执行复杂任务的能力。通过引入扩散动作专家和具身课程学习，DexVLA优化了机器人对语言指令的理解和动作执行。研究者提出了三阶段训练策略，逐步提高任务复杂性，最终实现高效的衣物折叠等任务。

DexVLA——在VLM上插上1B大小的扩散动作专家：使用带有子步骤推理注释的演示数据训练，15小时搞定叠衣服(含源码解析)

结构之法算法之道 ·

英伟达发布的GR00T N1模型结合视觉与语言指令，通过双系统架构实现机器人动作生成。该模型利用真实与合成数据进行训练，采用Eagle-2 VLM作为推理模块，DiT模块用于高频动作输出。团队计划在上海建立具身算法开发团队，招聘经验丰富的开发者和实习生。

GR00T N1——英伟达开源的通用人形VLA：VLM Eagle-2慢思考、DiT快反应，且可类似LAPA利用海量的无标注视频做训练

结构之法算法之道 ·

本文介绍了基于大型语言模型的视觉中心任务框架VisionLLM，旨在统一视觉与语言任务。通过将图像视为外语并利用语言指令进行管理，提升了多模态模型在特定领域的表现。此外，研究提出了VistaLLM和RoboLLM框架，解决了多任务间的干扰问题，并在视觉感知任务中取得了优异成绩。

VisionLLM v2：一种适用于数百种视觉语言任务的端到端通用多模态大语言模型

BriefGPT - AI 论文速递 ·

研究人员展示了使用RGB传感器的智能体能够根据语言指令熟练地导航、探索和操作对象。他们使用了端到端、基于transformer的SPOC架构和大规模多样化的训练数据。研究人员还开源了他们的模型、数据、训练代码和新的任务基准套件CHORES。

模拟最短路径实现在真实世界中的有效导航和操作

BriefGPT - AI 论文速递 ·

该文介绍了一个新的导航框架，用于在真实世界中解决VLN任务。该框架包括四个关键组成部分，能够将语言指令转换为宏操作描述、构建实时的视觉-语言地图、基于语言索引的定位器以及基于DD-PPO的本地控制器。作者在实验室环境中使用Interbotix LoCoBot WX250对该流程进行了评估，并发现该流程优于SOTA VLN基线。

机器人任务规划的视觉语言解释器

BriefGPT - AI 论文速递 ·