本文介绍了Humanoid Shadowing Transformer(HST)的低级控制策略。文章详细解释了HST代码的结构和各个部分的功能。其中,PPO类是HST的核心部分,包括了初始化函数、测试模式函数、训练模式函数、动作选择函数、环境步骤处理函数、回报计算函数和更新函数。更新函数中包括了自适应KL惩罚的过程、计算代理损失和价值损失的过程以及梯度下降更新模型参数的过程。最后,文章提到了HIT部分,但未给出具体内容。
斯坦福大学的Moblie aloha团队开源了人形机器人HumanPlus,通过学习人类数据实现全身控制和高自由度控制。该机器人可以完成穿鞋、行走、折叠运动衫等任务。
完成下面两步后,将自动完成登录并继续当前操作。