结构之法算法之道 ·

EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪：Qwen 2.5 VL加两个MLP头完成具身推理、动作生成

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

本文探讨了EmbodiedOneVision模型，该模型通过交错的视觉-文本-动作预训练，实现灵活的多模态推理与动作生成。EO-1采用统一架构，结合离散自回归解码与连续流匹配，提升机器人控制的泛化能力，并强调多模态数据的重要性，提出新的训练方法以优化推理与执行的整合。

🎯

关键要点

本文探讨了EmbodiedOneVision模型，通过交错的视觉-文本-动作预训练实现多模态推理与动作生成。
EO-1模型采用统一架构，结合离散自回归解码与连续流匹配，提升机器人控制的泛化能力。
多模态数据的重要性被强调，提出新的训练方法以优化推理与执行的整合。
EO-Robotics团队提出的EmbodiedOneVision模型通过交错的具身预训练，实现灵活的多模态推理与动作生成。
模型架构采用统一的Transformer，集成离散自回归解码与连续流匹配去噪。
训练过程中使用多模态理解数据、机器人动作生成数据和混合模态生成数据。
提出交错修正采样策略，以保持多模态标记序列中的因果关系。
模型通过下一个token预测和去噪向量场预测两个学习目标进行训练。

❓

延伸问答

EmbodiedOneVision模型的主要功能是什么？

EmbodiedOneVision模型实现了灵活的多模态推理与动作生成，结合视觉、文本和动作的交错预训练。

EO-1模型如何提升机器人控制的泛化能力？

EO-1模型通过结合离散自回归解码与连续流匹配，提升了机器人控制的泛化能力。

在EmbodiedOneVision模型中，多模态数据的重要性是什么？

多模态数据在模型中提供了丰富的世界知识和细致的跨模态交互，支持动作预测和复杂推理。

EmbodiedOneVision模型的训练方法有哪些创新？

模型提出了交错修正采样策略，以保持多模态标记序列中的因果关系，并结合多种数据类型进行训练。

EO-1模型的架构特点是什么？

EO-1模型采用统一的Transformer架构，集成离散自回归解码与连续流匹配去噪，支持多模态输入。

EmbodiedOneVision模型如何实现推理与执行的整合？

模型通过下一个token预测和去噪向量场预测两个学习目标进行训练，实现推理与执行的无缝整合。

🏷️

继续阅读

驱动推理时代：深入了解DigitalOcean数据与学习层
构建AI原生应用需要同时处理结构化和非结构化数据。DigitalOcean推出了统一的数据与学习层，支持PostgreSQL和MySQL高级版，简化数据管...
介绍Gemma 4 12B：一个统一的无编码多模态模型
Gemma 4 12B是最新的多模态智能模型，专为笔记本电脑设计，具备强大的推理能力和音频输入。它采用无编码架构，减少延迟和内存使用，支持在16GB内存的...
从看懂世界到做对动作，卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层
卧安机器人发布了OneModel 1.7 FrontoStria-RL，该模型通过隐式传导机制将世界模型与动作执行连接，提升了家庭机器人在真实环境中的操作...
[显示BUG没重置] Codex已重置本周使用限额原因似乎与部分模型出现的故障有关
本周，OpenAI的Codex、ChatGPT和API出现故障，导致用户使用受限。Codex团队已重置所有付费用户的使用限额，并延长7天。故障原因与部分模...
语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
麻省理工学院研究人员教AI模型解读图表
MIT和IBM研究人员开发了ChartNet数据集，包含超过一百万种多样化图表，旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成，帮助小型企...