结构之法算法之道 ·

OpenVLA-OFT——微调VLA时加快推理的三大关键设计：支持动作分块的并行解码、连续动作表示以及L1回归(含输入灵活化及对指令遵循的加强)

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

2025年3月26日，七月在线升级为具身智能场景落地与定制开发商，推出标准化软硬件产品，简化复现过程。研究者提出OpenVLA-OFT，通过并行解码、动作分块和L1回归优化，提升推理效率和任务性能，成功率达到97.1%，加速动作生成。

🎯

🔎

OpenVLA-OFT通过并行解码和动作分块的结合，显著提高了推理效率。这种设计使得模型能够在一次前向传递中生成多个动作，减少了传统自回归方法的延迟，适用于高频控制任务。相比于以往的模型，OpenVLA-OFT在速度和成功率上都有显著提升，适合实时应用场景。

OpenVLA-OFT的微调策略采用L1回归目标，提供了更快的训练收敛速度和推理效率。这一策略在双臂机器人高频控制任务中表现出色，解决了以往方法在复杂场景下的局限性。研究者的实证分析为微调视觉-语言-动作模型提供了新的思路，具有广泛的应用潜力。

与传统的自回归生成方法相比，OpenVLA-OFT不仅降低了推理延迟，还提高了吞吐量。这种改进使得在高频控制任务中，模型能够更快速地响应变化，适应复杂的操作环境。读者在选择模型时应关注其在特定应用场景下的表现，尤其是在实时性要求较高的任务中。

❓

OpenVLA-OFT的主要创新点包括并行解码、动作分块和L1回归目标，这些设计旨在提升推理效率和任务性能。

OpenVLA-OFT显著降低了推理延迟，并提高了吞吐量，动作生成速度提升可达26倍。

在LIBERO模拟基准测试中，OpenVLA-OFT的成功率达到了97.1%。

OpenVLA-OFT通过并行解码和动作分块的设计，提升了双臂机器人在高频控制任务中的执行可靠性。

L1回归目标用于微调VLA，提供了更快的训练收敛速度和推理速度，同时在性能上与基于扩散的微调相当。

研究者通过实验验证了每个设计决策的合理性，推动了微调视觉-语言-动作模型的发展。

🏷️