$WALL-OSS——点燃QwenVL 2.5在具身空间中的潜力：VL FFN可预测子任务及离散动作token，Action FNN则预测连续动作$

结构之法算法之道 ·

WALL-OSS——点燃QwenVL 2.5在具身空间中的潜力：VL FFN可预测子任务及离散动作token，Action FNN则预测连续动作

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

本文讨论了改进版的π0.5及其在视觉-语言-动作（VLA）模型中的应用，强调知识隔离策略在保持VLM预训练能力的同时，解决模态差距和数据稀缺问题。通过引入专家混合架构，WALL-OSS模型增强了跨模态关联能力，提高了指令遵循和长时序任务的成功率。

🎯

🔎

WALL-OSS模型采用知识隔离策略，旨在减少对视觉语言模型（VLM）参数的扰动。这一策略不仅保留了VLM的预训练能力，还有效应对了模态差距和数据稀缺的问题。通过这种方式，模型在执行复杂动作时能够更好地保持原有的视觉和语言先验，提升了指令遵循能力。

WALL-OSS引入的专家混合架构（MoE）使得模型在不同的训练阶段能够激活不同的专家网络。这种设计不仅提升了模型的跨模态关联能力，还能根据任务需求灵活调整，从而在处理离散和连续动作时表现出更高的效率和准确性。

在长时序任务中，模型面临指令跟随和误差累积的问题。WALL-OSS通过Uni-CoT方案实现了从指令到子任务及连续动作的端到端映射，减少了中间步骤的误差累积。这种方法增强了模型在复杂任务中的进度感知能力，提高了成功率。

❓

WALL-OSS模型通过引入高度耦合的专家混合架构，增强了跨模态关联能力，提高了指令遵循和长时序任务的成功率。

知识隔离策略在保持VLM预训练能力的同时，解决模态差距和数据稀缺问题，减少对VLM参数的扰动。

WALL-OSS通过紧密耦合的专家混合设计，提升了模型的跨模态关联能力，从而弥补模态和数据规模的差距。

训练方法分为启发阶段和集成阶段，分别增强空间推理能力和实现连续动作建模。

Uni-CoT方案实现了从指令到子任务及连续动作的端到端映射，减少了误差累积。

WALL-OSS模型显著提升了长时序任务的成功率和指令遵循能力。

🏷️