混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合

混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合

💡 原文中文,约5400字,阅读约需13分钟。
📝

内容提要

《Chameleon: 混合模态早期融合基础模型》介绍了一种新的单一Transformer架构,称为Chameleon,该架构对混合模态序列进行建模,以实现无缝推理和生成。Meta FAIR团队提出了模态感知稀疏架构(MoMa),通过集成特定于每种模态的模块来优化此框架。实验结果表明,MoMa模型在各种下游任务中表现出色。此外,团队进行了效率优化和吞吐量分析,证明了MoMa的高效性。

🎯

关键要点

  • Meta FAIR团队提出了一种新的单一Transformer架构Chameleon,用于混合模态序列建模。
  • Chameleon能够实现无缝推理和生成,适应广泛的视觉和语言能力。
  • MoMa(模态感知稀疏架构)通过集成特定模态的模块来优化Chameleon框架。
  • MoMa模型在各种下游任务中表现出色,尤其在生成混合模态长回答任务中表现优异。
  • 研究表明,不同模态具有固有的异构性,文本和图像token的信息密度和冗余模式不同。
  • 模态感知型稀疏性(MaS)技术能让模型更好地捕获每个模态的特征。
  • Chameleon的核心是基于Transformer的模型,使用自注意力机制捕获模态内和模态间的复杂关联。
  • 引入模态感知型混合专家(MoMa)以提升模型的效率和性能。
  • 在推理阶段,研究团队引入辅助路由器以保证因果关系。
  • 升级改造方法通过将FFN专家转换为MoE模块来提升模型性能。
  • 团队采用完全分片式数据并行(FSDP)来促进MoMa的分布式训练。
  • 实验结果表明,稀疏模型在训练效率和性能上优于密集模型。
  • 通过引入特定模态的专家分组,模型的预训练效率显著提高。
  • 升级改造能进一步改善模型训练,提升FLOPs收益。
  • 1.4B MoMa 4t4i模型在混合文本和图像数据上表现最佳。
➡️

继续阅读