$VisualMimic——基于视觉的人形行走-操作控制：低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令$

结构之法算法之道 ·

VisualMimic——基于视觉的人形行走-操作控制：低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令

💡 原文中文，约7100字，阅读约需17分钟。

📝

内容提要

本文讨论了VisualMimic框架在类人机器人行走与操作中的应用，通过分层设计提升强化学习的泛化能力。该框架结合低层关键点跟踪与高层视觉运动策略，使机器人在真实环境中执行多样化任务，展现出良好的鲁棒性和适应性。研究强调自我中心视觉感知与全身灵巧性的结合，推动了人形机器人在物体交互方面的进展。

🎯

🔎

VisualMimic框架通过分层设计，将低层的关键点跟踪与高层的视觉运动策略相结合，显著提升了类人机器人在复杂环境中的适应能力。这种设计不仅提高了任务特定训练的效率，还使得机器人能够在没有外部状态估计的情况下，直接在现实世界中执行多样化的操作任务。

文章强调自我中心视觉感知在类人机器人物体交互中的关键作用。通过这种视觉输入，机器人能够更好地理解周围环境，从而生成更为精准的任务跟踪指令。这一方法的成功实施，可能会推动机器人在复杂环境中的应用，如家庭服务和工业自动化等领域。

尽管VisualMimic框架在仿真环境中表现出色，但在实际部署中仍面临视觉噪声和环境变化的挑战。作者通过引入随机遮罩和深度图像平滑处理等技术，来缩小仿真与现实之间的差距。这些策略的有效性将直接影响机器人在真实环境中的表现和稳定性。

❓

VisualMimic框架结合低层关键点跟踪与高层视觉运动策略，提升类人机器人在真实环境中的行走与操作能力。

通过分层设计，低层策略负责平衡控制，高层策略基于自我中心视觉输入生成跟踪指令，从而提升强化学习的泛化能力。

在真实世界实验中，VisualMimic展示了良好的鲁棒性，能够适应光照变化和地面不平等的环境。

低层关键点跟踪器通过教师-学生训练方案进行训练，首先训练一个动作跟踪器，然后将其知识蒸馏到基于简化关键点指令的跟踪器中。

作者在训练过程中采用随机遮罩，以更好地逼近真实世界的视觉噪声，从而减轻深度图像的噪声影响。

高层策略通过仿真到现实的强化学习训练生成，依赖自我中心视觉和机器人本体感知，无需外部物体状态估计。

🏷️