结构之法算法之道 ·

BumbleBee——人形通用全身控制：先数据聚类、后每个聚类上训练专家策略(且通过增量动作模型弥补sim与real之间的差距)、最后蒸馏整合

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

BumbleBee是一种新型人形机器人控制策略，通过聚类不同动作类型并训练专家策略，缩小了仿真与现实之间的差距，提升了机器人在多样化任务中的表现，期待与科研机构合作加速应用。

🎯

🔎

BumbleBee通过聚类不同类型的动作并训练专家策略，显著提升了人形机器人的控制能力。这种方法不仅减少了不同动作间的干扰，还提高了训练效率和泛化能力，为复杂任务的执行提供了新的思路。

BumbleBee采用增量动作模型来弥补仿真与现实之间的差距。这一策略通过在真实环境中收集数据并进行微调，能够有效提升机器人的控制性能，尤其是在多样化的运动范围内。

通过为每个动作簇训练专门的专家策略，BumbleBee能够更精准地应对不同的运动需求。这种细化的训练方式不仅提升了动作的真实感，还有效解决了多样化动作类型带来的训练冲突问题。

❓

BumbleBee的创新在于将专家策略整合为一个通用的全身控制策略，减少任务间的干扰，提高训练效率和泛化能力。

BumbleBee通过增量动作模型，针对每个运动簇进行训练，以补偿仿真与现实之间的偏差。

专家策略通过在每个聚类上进行微调，并利用真实世界数据进行优化，以提升其在特定动作上的表现。

通过聚类不同动作类型并训练专家策略，BumbleBee提升了机器人在多样化任务中的表现。

BumbleBee使用自编码器对动作数据进行聚类，并结合文本注释进行语义对齐。

BumbleBee的最终通用策略模型采用了Transformer架构，以提高模型的表达能力。

🏷️