$Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作)：消除推理阶段的计算开销，让π0.6完成箱子装配与咖啡制作$

结构之法算法之道 ·

Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作)：消除推理阶段的计算开销，让π0.6完成箱子装配与咖啡制作

💡 原文中文，约7100字，阅读约需17分钟。

📝

内容提要

自2023年大模型兴起以来，博客影响力迅速增长，吸引了国内外博士生的关注。PI公司提出的训练时实时分块（training-time RTC）方法，通过模拟推理延迟，显著降低计算成本并提升机器人任务执行性能。该方法无需修改模型架构，仅需少量代码实现，已在实际任务中验证有效性。

🎯

关键要点

自2023年大模型兴起以来，博客影响力迅速增长，吸引了国内外博士生的关注。
PI公司提出的训练时实时分块（training-time RTC）方法，通过模拟推理延迟，显著降低计算成本并提升机器人任务执行性能。
该方法无需修改模型架构，仅需少量代码实现，已在实际任务中验证有效性。
训练时实时分块技术通过异步预测动作块，借助推理时图像修复对已执行动作进行调节。
模拟实验表明，训练时实时分块在高推理延迟场景下性能优于推理时实时计算。
实际验证显示，训练时实时分块在保持任务性能与执行速度的同时，计算成本显著低于推理时实时计算。
具身智能体必须在实时环境中运行，智能体行为与环境之间的反馈回路要求系统具备高度反应性。
前沿模型规模日益庞大，使得在高频率控制机器人时产生平滑且具备良好反应性的轨迹变得困难。
实时分块处理技术（RTC）为解决高推理延迟问题提供了有效途径。
训练时RTC通过模拟推理延迟，教会模型应对延迟，消除推理阶段的计算开销。
该方法在训练阶段直接将已执行的动作作为已知条件，模型只需预测剩余动作。
训练时RTC的实现仅需对模型架构进行最小改动，且不改变可学习参数数量。
通过对未经动作前缀调节预训练的基础模型进行微调，成功实现训练时RTC的部署。
训练时RTC在高复杂度任务中展现出优于推理时实时计算的性能提升。

🔎

延伸解读

训练时RTC的优势

训练时实时分块（training-time RTC）通过模拟推理延迟，显著降低了计算成本。这一方法在高推理延迟场景下表现优于传统的推理时实时计算，尤其适用于复杂任务，如机器人控制和动作生成。其实现简单，仅需少量代码修改，便于快速部署。

对比推理时RTC的局限性

推理时实时计算（inference-time RTC）虽然在某些场景下有效，但其引入的计算开销会导致推理延迟增加，影响系统的实时反应能力。相比之下，训练时RTC通过在训练阶段处理延迟，避免了这一问题，提升了智能体在动态环境中的表现。

实际应用中的挑战

尽管训练时RTC在理论上表现优越，但在实际应用中，模型的训练仍需考虑环境的复杂性和不确定性。如何有效模拟真实世界中的推理延迟，并确保模型在多变环境中的稳定性，是未来研究的重要方向。

❓

延伸问答

训练时实时分块（training-time RTC）是什么？

训练时实时分块是一种通过模拟推理延迟来降低计算成本并提升机器人任务执行性能的方法，无需修改模型架构，仅需少量代码实现。

训练时RTC如何提高机器人任务的执行性能？

训练时RTC通过异步预测动作块，直接将已执行的动作作为已知条件，教会模型应对推理延迟，从而提高任务执行性能。

训练时RTC与推理时RTC相比有什么优势？

训练时RTC在高推理延迟场景下性能优于推理时RTC，且计算成本显著低于推理时实时计算。

训练时RTC的实现需要对模型架构做哪些改动？

训练时RTC的实现仅需对模型架构进行最小改动，不改变可学习参数数量，主要是允许不同时间步长的流匹配。

训练时RTC在实际应用中表现如何？

实际验证显示，训练时RTC在箱体构建与浓缩咖啡制作任务中，保持任务性能与执行速度的同时，计算成本显著低于推理时RTC。

训练时RTC如何处理推理延迟问题？

训练时RTC通过在训练阶段模拟推理延迟，让模型习惯这种延迟，从而消除推理阶段的计算开销。

🏷️