Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作
📝
内容提要
摘要:本文提出一种训练时实时分块(training-time RTC)方法,通过模拟推理延迟直接调节动作前缀,有效解决了视觉语言动作模型(VLA)在实时控制中的延迟问题。相比需要推理时图像修复的传统RTC方法,新方案完全消除了推理阶段的计算开销,仅需微调现有模型即可实现。实验表明,该方法在高延迟场景下性能优于推理时RTC,在箱体构建和咖啡制作等复杂任务中,既能保持执行速度和任务性能,又显著降低了计算成本。
🏷️
标签
➡️