2025年3月26日,七月在线升级为具身智能场景落地与定制开发商,推出标准化软硬件产品,简化复现过程。研究者提出OpenVLA-OFT,通过并行解码、动作分块和L1回归优化,提升推理效率和任务性能,成功率达到97.1%,加速动作生成。
CogACT是一种结合视觉、语言和动作的模型,通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作,实现高精度和多模态的动作生成,显著提高任务成功率。
文章讨论了对π0开源项目的期待与遗憾,分析了OpenVLA和CogACT的源码,重点介绍了动作预测模块的实现,包括ActionTokenizer类的功能和Diffusion Transformer的架构。通过对比不同模型,探讨如何改进VLA以接近π0的思路。
Octo模型通过多样化的机器人数据集训练策略,增强了机器人的泛化能力。与以往模型不同,Octo支持灵活微调,用户可根据新任务调整输入输出,且完全开源。其架构包括输入Tokenizers、Transformer骨干和动作头,能有效处理多种任务和数据。
通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉 - 语言 - 动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA,这是一个 7B 参数的开源 VLA,它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA...
完成下面两步后,将自动完成登录并继续当前操作。