OpenVLA-OFT——微调VLA时加快推理的三大关键设计:支持动作分块的并行解码、连续动作表示以及L1回归(含输入灵活化及对指令遵循的加强)

💡 原文中文,约6200字,阅读约需15分钟。
📝

内容提要

2025年3月26日,七月在线升级为具身智能场景落地与定制开发商,推出标准化软硬件产品,简化复现过程。研究者提出OpenVLA-OFT,通过并行解码、动作分块和L1回归优化,提升推理效率和任务性能,成功率达到97.1%,加速动作生成。

🎯

关键要点

  • 2025年3月26日,七月在线升级为具身智能场景落地与定制开发商,推出标准化软硬件产品。
  • OpenVLA-OFT通过并行解码、动作分块和L1回归优化,提升推理效率和任务性能。
  • OpenVLA-OFT在LIBERO模拟基准测试中成功率达到97.1%,并在动作生成中实现了26倍的速度提升。
  • OpenVLA-OFT的设计决策包括并行解码、连续动作表示和L1回归目标,旨在提高推理效率和任务性能。
  • 与传统的自回归生成方法相比,OpenVLA-OFT显著降低了推理延迟并提高了吞吐量。
  • OpenVLA-OFT的微调策略在双臂机器人高频控制任务中表现出色,解决了以往方法的局限性。
  • 研究者们通过实验验证了每个设计决策的合理性,推动了微调视觉-语言-动作模型的发展。
➡️

继续阅读