act笔记

act笔记

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

ACT通过将动作打包,能够一次性预测未来k个时间步的动作序列,有效减少误差累积。它结合超低成本的遥操作平台、CVAE模型和Transformer架构,提升了机器人的控制精度和动作平滑度。

🎯

关键要点

  • ACT通过将动作打包,一次性预测未来k个时间步的动作序列,有效减少误差累积。
  • ALOHA遥操作平台由廉价机械臂和3D打印部件组成,提供高控制带宽和稳定性。
  • ACT改变了传统的单步预测策略,直接生成未来k个时间步的目标关节位置序列。
  • 为了提高动作平滑度,ACT在每个时间步查询策略网络,避免运动生硬。
  • ACT使用指数加权方案对多个预测动作进行加权平均,产生平滑和精确的动作。
  • ACT将策略训练为条件变分自编码器(CVAE),捕捉人类演示中的变异性。
  • CVAE编码器接收关节位置和目标动作序列,通过[CLS] token输出风格变量的均值和方差。
  • 图像特征通过ResNet18提取,并与关节位置和风格变量拼接,送入Transformer编码器。
  • 使用标准的VAE目标函数进行优化,发现L1损失比L2损失能获得更精确的动作建模。
  • 在推理时,CVAE编码器被丢弃,风格变量设置为先验分布的均值。
➡️

继续阅读