内容提要
ACT通过将动作打包,能够一次性预测未来k个时间步的动作序列,有效减少误差累积。它结合超低成本的遥操作平台、CVAE模型和Transformer架构,提升了机器人的控制精度和动作平滑度。
关键要点
-
ACT通过将动作打包,一次性预测未来k个时间步的动作序列,有效减少误差累积。
-
ALOHA遥操作平台由廉价机械臂和3D打印部件组成,提供高控制带宽和稳定性。
-
ACT改变了传统的单步预测策略,直接生成未来k个时间步的目标关节位置序列。
-
为了提高动作平滑度,ACT在每个时间步查询策略网络,避免运动生硬。
-
ACT使用指数加权方案对多个预测动作进行加权平均,产生平滑和精确的动作。
-
ACT将策略训练为条件变分自编码器(CVAE),捕捉人类演示中的变异性。
-
CVAE编码器接收关节位置和目标动作序列,通过[CLS] token输出风格变量的均值和方差。
-
图像特征通过ResNet18提取,并与关节位置和风格变量拼接,送入Transformer编码器。
-
使用标准的VAE目标函数进行优化,发现L1损失比L2损失能获得更精确的动作建模。
-
在推理时,CVAE编码器被丢弃,风格变量设置为先验分布的均值。
延伸问答
ACT如何减少误差累积?
ACT通过将动作打包,一次性预测未来k个时间步的动作序列,从而有效减少误差累积。
ALOHA遥操作平台的组成是什么?
ALOHA遥操作平台由廉价机械臂和3D打印部件组成,提供高控制带宽和稳定性。
ACT如何提高机器人的动作平滑度?
ACT在每个时间步查询策略网络,并使用指数加权方案对多个预测动作进行加权平均,以提高动作的平滑度。
ACT使用了什么模型进行策略训练?
ACT将策略训练为条件变分自编码器(CVAE),以捕捉人类演示中的变异性。
在推理阶段,ACT如何处理风格变量?
在推理时,CVAE编码器被丢弃,风格变量设置为先验分布的均值,即全零向量。
ACT的优化目标函数是什么?
ACT使用标准的VAE目标函数进行优化,包含重构损失和KL散度正则化项。