结构之法算法之道 ·

TWIST——基于动捕的全身遥操模仿学习：教师策略RL训练，学生策略结合RL和BC联合优化

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

自6月以来，团队在招募新成员的同时加快项目进度，完成了VR和机械臂的遥控操作，开发了全身遥操系统TWIST，结合动作捕捉与强化学习，使人形机器人能够模仿人类动作。该系统通过高质量数据集和鲁棒控制器，提升了机器人在复杂任务中的表现。

🎯

🔎

TWIST系统的开发面临多个技术挑战，尤其是在实时跟踪和控制的准确性方面。传统方法往往将远程操作与平衡分开处理，限制了系统的整体能力。TWIST通过结合动作捕捉和强化学习，克服了这些限制，提升了机器人在复杂任务中的表现。

TWIST采用的两阶段师生框架显著提升了控制器的平滑性和稳定性。教师策略在训练时能够访问未来动作帧，从而学习更流畅的行为，而学生策略则在实际操作中依赖当前帧。这种设计有效缓解了实时操作中的犹豫行为，提高了机器人执行任务的效率。

TWIST系统的成功依赖于高质量的数据集。作者整理了包含15,000段片段的大规模动作数据集，并结合小规模的在线动作捕捉数据。这种数据的多样性和质量确保了控制器在训练过程中的有效性，使其能够在真实环境中表现出色。

❓

TWIST系统结合动作捕捉与强化学习，使人形机器人能够模仿人类动作，提升全身遥操能力。

TWIST采用两阶段师生框架，通过教师策略学习未来动作，指导学生策略以提升控制器的平滑性和稳定性。

TWIST系统使用了一个包含15,000段片段的大规模动作数据集，以及150段小规模的在线动作捕捉数据。

TWIST在现实世界的人形机器人上实现了卓越的全身远程操作能力，能够执行多样化的类人技能。

TWIST的训练流程包括构建类人动作数据集、在仿真环境中训练全身控制器，以及利用动作捕捉设备进行远程操作。

TWIST系统能够执行协调技能，利用高质量的人体数据输入和稳健的训练流程，克服了传统系统在全身技能协调方面的限制。

🏷️