小红花·文摘

HEAD——视觉驱动下的自主配送(本质是VLN)：高层规划器发出手部和眼部的目标位置与朝向指令，低层全身控制策略则执行导航与触达，暂无法抓取

结构之法算法之道 ·

本文介绍了一种新型视觉语言模型（VLM），结合物理概念和语言指令，提升机器人在抓取和放置任务中的表现。通过大规模视频生成预训练，模型在多任务操作中展现出显著的泛化能力。RoboPoint模型在空间可行性预测上优于现有技术，成功率提高30.5%。RoboUniView方法通过统一视图表示，提升了机器人在不同摄像机参数下的适应性和性能。

Polaris：通过Syn2Real视觉基础和大型语言模型实现开放式交互机器人操控

BriefGPT - AI 论文速递 ·