结构之法算法之道 ·

从Octo与TinyVLA、DeeR-VLA、3D-VLA——OpenVLA之外的VLA模型的持续升级

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

Octo模型通过多样化的机器人数据集训练策略，增强了机器人的泛化能力。与以往模型不同，Octo支持灵活微调，用户可根据新任务调整输入输出，且完全开源。其架构包括输入Tokenizers、Transformer骨干和动作头，能有效处理多种任务和数据。

🎯

🔎

Octo模型的设计允许用户在微调过程中根据新任务灵活调整输入和输出。这种模块化的架构使得在不同的机器人设置中应用Octo变得更加高效，用户无需重新训练整个模型，降低了时间和资源的消耗。

获取大规模的机器人数据集通常需要高昂的硬件和人工成本。Octo通过在多个机器人数据集上进行训练，提升了数据的有效性和多样性，展示了在数据收集方面的创新思路，可能为未来的机器人学习研究提供借鉴。

与GNM、RoboCat等模型相比，Octo在灵活性和适应性上具有明显优势。其他模型通常要求用户遵循固定的输入和输出格式，而Octo的设计允许用户根据实际需求进行调整，增强了其在多种应用场景中的适用性。

❓

Octo模型通过多样化的机器人数据集训练，增强了泛化能力，支持灵活微调，并且是完全开源的。

Octo使用输入Tokenizers将任务定义和观察转换为通用的token序列，然后通过Transformer骨干处理这些token。

Octo在Open X-Embodiment数据集上进行了训练，该数据集包含约150万个机器人剧集。

Octo的灵活性体现在其模块化设计上，允许在微调过程中添加和删除观测或任务，而无需重新初始化模型。

Octo在更大且多样化的数据集上训练，支持更广泛的下游应用，并且是完全开源的，具有更高的灵活性。

Octo的设计灵感来源于机器人模仿学习和可扩展transformer训练的最新进展。

🏷️