结构之法算法之道 ·

HumanPlus(斯坦福人形机器人)的代码解读与复现关键：从HST到HIT、HardWare

💡 原文中文，约8200字，阅读约需20分钟。

📝

内容提要

本文介绍了Humanoid Shadowing Transformer（HST）的低级控制策略。文章详细解释了HST代码的结构和各个部分的功能。其中，PPO类是HST的核心部分，包括了初始化函数、测试模式函数、训练模式函数、动作选择函数、环境步骤处理函数、回报计算函数和更新函数。更新函数中包括了自适应KL惩罚的过程、计算代理损失和价值损失的过程以及梯度下降更新模型参数的过程。最后，文章提到了HIT部分，但未给出具体内容。

🎯

关键要点

本文介绍了Humanoid Shadowing Transformer（HST）的低级控制策略。
HST代码结构包括多个部分，核心部分为PPO类。
PPO类包含初始化函数、测试模式函数、训练模式函数、动作选择函数、环境步骤处理函数、回报计算函数和更新函数。
更新函数中包括自适应KL惩罚、计算代理损失和价值损失、梯度下降更新模型参数的过程。
PPO类的初始化函数定义了多个参数，如学习率、价值损失系数等。
测试模式和训练模式函数用于设置actor_critic的状态。
动作选择函数计算动作及其对应的值和对数概率。
环境步骤处理函数更新奖励和完成状态，并记录过渡数据。
计算回报函数用于计算最后的值并更新存储。
更新函数根据模型类型选择不同的mini-batch生成器，并计算损失。
自适应KL惩罚根据KL散度动态调整学习率。
代理损失和价值损失的计算是PPO算法的核心部分。
最后进行梯度下降更新模型参数，并计算平均损失。
文章提到HIT部分，但未给出具体内容。

❓

延伸问答

Humanoid Shadowing Transformer（HST）是什么？

Humanoid Shadowing Transformer（HST）是一种低级控制策略，用于人形机器人的控制。

HST代码的核心部分是什么？

HST代码的核心部分是PPO类，它包含多个重要函数，如初始化函数、训练模式函数和更新函数。

PPO类中的更新函数有什么作用？

更新函数用于根据模型类型选择mini-batch生成器，计算损失并更新模型参数。

自适应KL惩罚在PPO算法中如何工作？

自适应KL惩罚根据KL散度动态调整学习率，以确保模型的学习过程稳定。

PPO类的初始化函数定义了哪些参数？

初始化函数定义了学习率、价值损失系数、熵系数等多个参数。

HST的测试模式和训练模式函数有什么区别？

测试模式函数设置actor_critic为测试状态，而训练模式函数则设置为训练状态。

🏷️