EmbodiedOneVision——类似π0.5集成了离散自回归解码与连续流匹配去噪:单个模型中完成具身推理、动作生成
本文解读了EO-Robotics这一开源工作,该模型通过交错视觉-文本-动作预训练实现了类似π0.5的统一架构。与早期VLA模型不同,EO-Robotics支持灵活的多模态交互,在训练时采用离散token自回归方式,推理时则输出连续动作。其核心创新包括:1)构建交错多模态数据集,结合网络视觉-语言数据和机器人操作片段;2)采用统一Transformer架构,集成离散文本解码和连续动作流匹配;...
本文探讨了EmbodiedOneVision模型,该模型通过交错的视觉-文本-动作预训练,实现灵活的多模态推理与动作生成。EO-1采用统一架构,结合离散自回归解码与连续流匹配,提升机器人控制的泛化能力,并强调多模态数据的重要性,提出新的训练方法以优化推理与执行的整合。