act笔记

act笔记

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

ACT通过将动作打包,能够一次性预测未来k个时间步的动作序列,有效减少误差累积。它结合超低成本的遥操作平台、CVAE模型和Transformer架构,提升了机器人的控制精度和动作平滑度。

🎯

关键要点

  • ACT通过将动作打包,一次性预测未来k个时间步的动作序列,有效减少误差累积。

  • ALOHA遥操作平台由廉价机械臂和3D打印部件组成,提供高控制带宽和稳定性。

  • ACT改变了传统的单步预测策略,直接生成未来k个时间步的目标关节位置序列。

  • 为了提高动作平滑度,ACT在每个时间步查询策略网络,避免运动生硬。

  • ACT使用指数加权方案对多个预测动作进行加权平均,产生平滑和精确的动作。

  • ACT将策略训练为条件变分自编码器(CVAE),捕捉人类演示中的变异性。

  • CVAE编码器接收关节位置和目标动作序列,通过[CLS] token输出风格变量的均值和方差。

  • 图像特征通过ResNet18提取,并与关节位置和风格变量拼接,送入Transformer编码器。

  • 使用标准的VAE目标函数进行优化,发现L1损失比L2损失能获得更精确的动作建模。

  • 在推理时,CVAE编码器被丢弃,风格变量设置为先验分布的均值。

延伸问答

ACT如何减少误差累积?

ACT通过将动作打包,一次性预测未来k个时间步的动作序列,从而有效减少误差累积。

ALOHA遥操作平台的组成是什么?

ALOHA遥操作平台由廉价机械臂和3D打印部件组成,提供高控制带宽和稳定性。

ACT如何提高机器人的动作平滑度?

ACT在每个时间步查询策略网络,并使用指数加权方案对多个预测动作进行加权平均,以提高动作的平滑度。

ACT使用了什么模型进行策略训练?

ACT将策略训练为条件变分自编码器(CVAE),以捕捉人类演示中的变异性。

在推理阶段,ACT如何处理风格变量?

在推理时,CVAE编码器被丢弃,风格变量设置为先验分布的均值,即全零向量。

ACT的优化目标函数是什么?

ACT使用标准的VAE目标函数进行优化,包含重构损失和KL散度正则化项。

➡️

继续阅读