结构之法算法之道 ·

实时动作分块RTC——为解决高延迟，让π0.5也可以点燃火柴、插入网线：执行当前动作分块时生成下一个分块，且已执行的冻结未执行的则补全

💡 原文中文，约5500字，阅读约需14分钟。

📝

内容提要

本文介绍了physical intelligence公司推出的实时动作分块技术，旨在提升视觉-语言-动作模型（VLA）的实时控制能力。该技术通过异步机制和修复方法，解决了模型推理延迟和动作不连贯的问题，使机器人能够更精确地执行复杂任务。

🎯

🔎

实时动作分块技术通过异步机制和修复方法，显著提升了机器人在复杂任务中的执行精度。这种技术使得机器人在执行当前动作的同时，能够思考并生成下一个动作，从而减少了因延迟带来的不连贯性。这一创新为机器人在动态环境中的应用提供了更高的灵活性和适应性。

尽管实时动作分块技术在提升机器人控制能力方面取得了进展，但仍面临延迟和动作不连贯的问题。作者提出将实时分块视为修复问题，通过冻结已执行的动作并补全未执行的部分，确保新旧动作之间的兼容性。这种方法有助于保持动作的连续性，减少因分块切换带来的不稳定性。

与传统的同步推理方法相比，实时动作分块技术通过异步执行来减少延迟，确保每个时间步都有可用的动作。这种方法不仅提高了执行效率，还避免了因停顿导致的动态特性变化，使得机器人在复杂环境中的表现更加稳定。

❓

提升视觉-语言-动作模型的实时控制能力，解决推理延迟和动作不连贯的问题。

通过异步机制和修复方法，使模型在执行当前动作时生成下一个分块，从而减少延迟。

使机器人能够更精确地执行复杂任务，如点燃火柴和插入网线。

通过冻结前一个分块的已执行动作，确保新分块与前一个分块兼容。

在灵巧操作领域取得了许多最先进的成果，但仍面临延迟问题。

保持各分块之间的连续性，确保新分块与前一个分块兼容。

🏷️