小红花·文摘

本文探讨了EmbodiedOneVision模型，该模型通过交错的视觉-文本-动作预训练，实现灵活的多模态推理与动作生成。EO-1采用统一架构，结合离散自回归解码与连续流匹配，提升机器人控制的泛化能力，并强调多模态数据的重要性，提出新的训练方法以优化推理与执行的整合。