结构之法算法之道 ·

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

💡 原文中文，约7200字，阅读约需18分钟。

📝

内容提要

HybridVLA是一种新型视觉-语言-动作模型，结合自回归和扩散策略，旨在提升机器人在动态环境中的操作能力。通过协同训练，该模型有效整合两种生成方法的优势，提高了动作预测的准确性和鲁棒性，并在多样化数据集上展现出优越的性能。

🎯

🔎

HybridVLA模型通过结合自回归和扩散策略，克服了传统VLA方法在动作连续性和推理能力上的局限。这种协同训练方案不仅提升了动作预测的准确性，还增强了模型在复杂动态环境中的适应能力，显示出更高的鲁棒性。

HybridVLA采用分阶段训练方法，首先进行大规模预训练，然后在特定任务上微调。这种策略确保了模型在多样化数据集上的泛化能力，使其能够在不同场景中表现出色，尤其是在复杂任务和需要语义推理的场景中。

在推理阶段，HybridVLA通过结合自回归和扩散生成的动作，利用自回归动作的置信度来指导最终的动作选择。这种方法不仅提高了动作的稳定性，还确保了在不同任务中的最佳表现，尤其是在需要精确控制的操作中。

❓

HybridVLA模型结合自回归和扩散策略，提升机器人在动态环境中的操作能力。

通过协同训练整合自回归和扩散生成方法的优势，HybridVLA提高了动作预测的准确性和鲁棒性。

HybridVLA采用分阶段训练方法，首先进行大规模预训练，然后在下游任务上进行微调。

在推理过程中，HybridVLA结合扩散和自回归方法生成动作，并通过自回归动作token的置信度指导动作集成。

HybridVLA通过协同训练方案解决了传统VLA方法中量化过程破坏动作姿态连续性的问题，并有效整合了两种生成方法的优势。

实验表明，基于扩散的预测在精确操作任务中表现优异，而自回归预测在需要场景语义推理的任务中更为有效。

🏷️