小红花·文摘

2025年3月26日，七月在线升级为具身智能场景落地与定制开发商，推出标准化软硬件产品，简化复现过程。研究者提出OpenVLA-OFT，通过并行解码、动作分块和L1回归优化，提升推理效率和任务性能，成功率达到97.1%，加速动作生成。

OpenVLA-OFT——微调VLA时加快推理的三大关键设计：支持动作分块的并行解码、连续动作表示以及L1回归(含输入灵活化及对指令遵循的加强)

结构之法算法之道 ·

CogACT是一种结合视觉、语言和动作的模型，通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作，实现高精度和多模态的动作生成，显著提高任务成功率。

一文速览CogACT及其源码剖析：把OpenVLA的离散化动作预测换成DiT，逼近π0(含DiT的实现)

结构之法算法之道 ·

文章讨论了对π0开源项目的期待与遗憾，分析了OpenVLA和CogACT的源码，重点介绍了动作预测模块的实现，包括ActionTokenizer类的功能和Diffusion Transformer的架构。通过对比不同模型，探讨如何改进VLA以接近π0的思路。

一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测

结构之法算法之道 ·

Octo模型通过多样化的机器人数据集训练策略，增强了机器人的泛化能力。与以往模型不同，Octo支持灵活微调，用户可根据新任务调整输入输出，且完全开源。其架构包括输入Tokenizers、Transformer骨干和动作头，能有效处理多种任务和数据。

从Octo与TinyVLA、DeeR-VLA、3D-VLA——OpenVLA之外的VLA模型的持续升级

结构之法算法之道 ·

通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型，可以改变我们教授机器人新技能的方式：相对于从零开始训练新行为，我们可以对这种视觉 - 语言 - 动作（VLA）模型进行微调，以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA，这是一个 7B 参数的开源 VLA，它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA...

OpenVLA：一个开放源代码的视觉语言行动模型

BriefGPT - AI 论文速递 ·