结构之法算法之道 ·

HumanPlus(斯坦福人形机器人)的代码解读与复现关键：从HST到HIT、HardWare

💡 原文中文，约8200字，阅读约需20分钟。

📝

内容提要

本文介绍了Humanoid Shadowing Transformer（HST）的低级控制策略。文章详细解释了HST代码的结构和各个部分的功能。其中，PPO类是HST的核心部分，包括了初始化函数、测试模式函数、训练模式函数、动作选择函数、环境步骤处理函数、回报计算函数和更新函数。更新函数中包括了自适应KL惩罚的过程、计算代理损失和价值损失的过程以及梯度下降更新模型参数的过程。最后，文章提到了HIT部分，但未给出具体内容。

🎯

关键要点

本文介绍了Humanoid Shadowing Transformer（HST）的低级控制策略。
HST代码结构包括多个部分，核心部分为PPO类。
PPO类包含初始化函数、测试模式函数、训练模式函数、动作选择函数、环境步骤处理函数、回报计算函数和更新函数。
更新函数中包括自适应KL惩罚、计算代理损失和价值损失、梯度下降更新模型参数的过程。
PPO类的初始化函数定义了多个参数，如学习率、价值损失系数等。
测试模式和训练模式函数用于设置actor_critic的状态。
动作选择函数计算动作及其对应的值和对数概率。
环境步骤处理函数更新奖励和完成状态，并记录过渡数据。
计算回报函数用于计算最后的值并更新存储。
更新函数根据模型类型选择不同的mini-batch生成器，并计算损失。
自适应KL惩罚根据KL散度动态调整学习率。
代理损失和价值损失的计算是PPO算法的核心部分。
最后进行梯度下降更新模型参数，并计算平均损失。
文章提到HIT部分，但未给出具体内容。

🏷️

继续阅读

Anthropic推出Claude Code的多智能体代码审查工具
Anthropic的Claude Code产品负责人Cat Wu表示，代码审查自动化愈发重要。随着用户使用Claude Code，提交的PR数量显著增加，...
ABB机器人利用NVIDIA Omniverse大规模交付工业级物理AI
ABB与NVIDIA合作，将工业级物理AI引入工厂，通过整合NVIDIA Omniverse库到RobotStudio，实现高精度仿真，降低工程时间和部署...
AI编码代理可以编写代码，Crafting希望帮助他们交付
Crafting CEO Sumeet Vaidya表示，六到九个月前，大家关注AI代理的快速代码生成，但他和联合创始人意识到，工程组织在扩展时面临协调和资源使用等挑战。
首个物理AI数据基座平台“无垠”落户浙江，专治机器人数据荒，家庭工业商业场景全覆盖
浙江推出首个物理AI数据基座平台“无垠”，旨在解决机器人数据短缺问题。该平台结合真实数据与虚拟仿真，提供高质量数据，支持具身智能的训练与应用，推动行业发展。
周鸿祎表示360将推出OpenClaw AI机器人一键安装包帮助用户快速部署龙虾
周鸿祎表示，360将推出一键安装版的OpenClaw AI机器人，旨在降低用户的安装门槛，使更多人能够使用AI助手。尽管龙虾概念引起关注，但当前的部署和维...
图文实操｜二手 VPS 交易防找回，原始邮箱的安全交接与修改是关键
近期二手VPS交易活跃，确保原始邮箱安全交接至关重要。许多服务商不支持邮箱修改，买家需确保安全信息更改，以防账户被找回。建议选择支持官方过户的套餐，以保障交易安全。

HumanPlus(斯坦福人形机器人)的代码解读与复现关键：从HST到HIT、HardWare

内容提要

关键要点

标签

继续阅读