$Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)$

结构之法算法之道 ·

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块，优化动作生成过程，减少离散化负担，能够在零样本条件下分解任务，直接生成动作，增强对复杂场景的适应能力。

🎯

🔎

G0.5模型通过将视觉语言模型(VLM)与动作生成统一为单一自回归序列，打破了传统VLA架构中VLM仅作为上下文编码器的局限。这种创新使得推理与动作生成可以在同一框架下进行，提升了机器人在复杂场景中的适应能力和控制效率。

G0.5模型在零样本条件下能够有效分解任务，直接生成动作。这一特性使得机器人在面对未知环境时，能够快速适应并执行复杂指令，减少了对大量训练数据的依赖，具有重要的实用价值。

G0.5模型通过共享同一自回归序列，使得推理与动作生成不再是独立的过程，而是紧密耦合。这种设计不仅提高了生成效率，还使得思维链成为控制的核心组成部分，增强了模型的整体智能水平。

❓

G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。

G0.5模型采用可学习的动作分词器和视觉记忆模块，减少离散化负担，优化动作生成过程。

G0.5模型能够在零样本条件下分解任务，直接生成动作，增强对复杂场景的适应能力。

G0.5模型使推理与动作共享同一自回归序列，将思维链作为控制的原生组成部分。

G0.5模型设计围绕感知、推理和行动在一个共享词元词表上的统一进行。

G0.5模型通过耦合推理与动作，提升了机器人控制的效率和灵活性，能够更好地应对复杂任务。

🏷️