小红花·文摘

本文介绍了Humanoid Shadowing Transformer（HST）的低级控制策略。文章详细解释了HST代码的结构和各个部分的功能。其中，PPO类是HST的核心部分，包括了初始化函数、测试模式函数、训练模式函数、动作选择函数、环境步骤处理函数、回报计算函数和更新函数。更新函数中包括了自适应KL惩罚的过程、计算代理损失和价值损失的过程以及梯度下降更新模型参数的过程。最后，文章提到了HIT部分，但未给出具体内容。

HumanPlus(斯坦福人形机器人)的代码解读与复现关键：从HST到HIT、HardWare

结构之法算法之道 ·

斯坦福大学的Moblie aloha团队开源了人形机器人HumanPlus，通过学习人类数据实现全身控制和高自由度控制。该机器人可以完成穿鞋、行走、折叠运动衫等任务。

HumanPlus——斯坦福ALOHA团队开源的人形机器人：融合影子学习技术、RL、模仿学习

结构之法算法之道 ·