结构之法算法之道 ·

Realtime-VLA V2——如何让vla运行的更快：从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

本文探讨了基于消费级GPU的实时视觉-语言模型（VLA）机器人控制技术。通过优化推理流程，推理延迟降低至27.3毫秒，抓取成功率达到100%。研究表明，VLA在机器人控制中可有效满足实时操作需求。

🎯

🔎

本文展示了如何通过优化推理流程，使VLA模型在机器人控制中实现实时性能。这一进展不仅提升了抓取成功率，还为动态任务的执行提供了新的可能性，尤其是在需要快速反应的场景中，如抓取移动物体。

作者提出的多项优化策略，如使用CUDA图消除CPU开销和简化计算图，显著降低了推理延迟。这些技术手段为其他研究者在类似领域的应用提供了参考，尤其是在追求高效能的实时系统中。

VLA模型的全流式推理模式使其能够以高达480Hz的频率生成控制信号，触及实时力控制的门槛。这为未来的机器人控制系统设计提供了新的思路，尤其是在需要高频率反馈的复杂任务中。

❓

Realtime-VLA V2基于消费级GPU，优化推理流程，推理延迟降低至27.3毫秒，抓取成功率达到100%。

VLA模型通过CUDA图方法消除CPU开销，并优化计算图和内存操作，实现实时运行。

VLA在抓取下落物体的任务中达到了100%的成功率，满足了实时操作需求。

通过消除CPU开销和去除冗余计算，采用CUDA图和简化图的方法来优化推理速度。

VLA模型主要包括视觉-语言模型（VLM）和动作专家（AE），通过混合训练实现开放世界泛化能力。

VLA模型能够以最高480Hz的频率生成控制信号，满足实时力控制的需求。

🏷️