结构之法算法之道 ·

HEAD——视觉驱动下的自主配送(本质是VLN)：高层规划器发出手部和眼部的目标位置与朝向指令，低层全身控制策略则执行导航与触达，暂无法抓取

💡 原文中文，约10200字，阅读约需25分钟。

📝

内容提要

HEAD是一种人形机器人手眼自主递送系统，结合导航、运动与触达任务。通过模块化方法，利用人类数据训练机器人在复杂环境中高效完成目标操作，成功率达到71%。未来可扩展至更复杂的抓取任务。

🎯

🔎

HEAD系统采用模块化设计，将导航、运动和触达任务分开处理。这种设计使得系统能够灵活利用不同来源的人类数据进行训练，提高了在复杂环境中的适应能力。通过解耦视觉感知与物理动作，HEAD能够更有效地应对多样化的任务需求。

HEAD在不同环境中的成功率达到了71%，但在厨房环境中的表现明显低于实验室。这表明环境的复杂性和布局对机器人导航能力有显著影响。未来的研究可以集中在如何提升机器人在复杂环境中的表现，尤其是在狭窄空间和反光表面等挑战性场景中。

尽管HEAD在导航和触达任务中表现出色，但其局限性在于只采集头部姿态，未考虑身体其他部分的协调。这可能导致机器人在复杂环境中采取保守策略，限制了其灵活性。未来的研究可以探索如何整合更多身体部位的信息，以提升机器人的整体表现。

❓

HEAD系统是一种人形机器人手眼自主递送系统，结合导航、运动与触达任务。

HEAD系统在不同环境中的成功率达到了71%。

HEAD系统采用基于模仿的强化学习，通过人类数据训练机器人，解决全身技能和空间稀疏性的问题。

高层策略预测目标位置与朝向，低层控制器执行全身运动。

HEAD系统只采集头部姿态，未考虑身体其他部分的协调，导致在复杂环境中采取保守策略。

未来的扩展工作包括构建通用抓取框架和学习更细粒度的全身导航能力。

🏷️