HyperAI超神经 ·

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Q: Lance模型的参数规模是多少？

Lance模型采用3B活动参数设计。

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

Lance是字节跳动于2026年发布的多模态模型，具备图像与视频的理解、生成和编辑能力。该模型采用双流混合专家架构，提升了文本、图像和视频任务的生成质量和语义理解能力。

🎯

关键要点

Lance 是字节跳动于 2026 年发布的多模态模型，具备图像与视频的理解、生成和编辑能力。
该模型采用 3B 活动参数设计，能够在单一框架内完成多种任务。
Lance 通过统一多模态表示与多任务协同训练，实现文本、图像和视频任务之间的能力共享。
模型核心采用双流混合专家架构与模态感知旋转位置编码，提升了生成质量和语义理解能力。
结合阶段性的多任务训练策略，Lance 在图文和视频生成质量上超越现有开源模型。

🔎

延伸解读

Lance模型的多模态优势

Lance模型通过统一多模态表示和多任务协同训练，能够在同一框架内处理文本、图像和视频任务。这种设计不仅提高了生成质量，还促进了不同模态之间的能力共享，适用于多种应用场景，如内容创作和智能编辑。

双流混合专家架构的创新

Lance采用的双流混合专家架构（MoE）和模态感知旋转位置编码（MaPE）使得模型在理解与生成能力上实现了有效解耦。这种创新架构有助于提升模型的语义理解能力，尤其在复杂的多模态任务中表现出色。

ViMU数据集的应用前景

新加坡国立大学推出的ViMU数据集专注于视频隐喻理解，旨在评估多模态大模型的深层语义理解能力。随着Lance等模型的应用，ViMU数据集将为研究者提供更丰富的测试基准，推动视频理解领域的进步。

❓

延伸问答

Lance模型的主要功能是什么？

Lance模型具备图像与视频的理解、生成和编辑能力。

Lance模型采用了什么样的架构？

Lance模型采用双流混合专家架构与模态感知旋转位置编码。

Lance模型如何实现多模态任务的能力共享？

通过统一多模态表示与多任务协同训练，Lance实现了文本、图像和视频任务之间的能力共享。

Lance模型的参数规模是多少？