2025外滩大会:蚂蚁、人大发布首个原生MoE扩散语言模型,将于近期开源

💡 原文中文,约1700字,阅读约需5分钟。
📝

内容提要

蚂蚁集团与人民大学联合发布了首个原生MoE架构的语言模型LLaDA-MoE,经过20T数据训练,性能超越LLaDA1.0/1.5和Dream-7B,推理速度高效。该模型将于近期开源,推动全球AI技术发展。

🎯

关键要点

  • 蚂蚁集团与人民大学联合发布了首个原生MoE架构的语言模型LLaDA-MoE。
  • 该模型在约20T数据上完成了从零训练,性能超越LLaDA1.0/1.5和Dream-7B。
  • LLaDA-MoE模型将于近期完全开源,推动全球AI技术发展。
  • 新模型通过非自回归的掩码扩散机制,实现了与Qwen2.5相当的语言智能。
  • LLaDA-MoE在代码、数学、Agent等任务上表现优于LLaDA1.0/1.5和Dream-7B。
  • 模型验证了工业级大规模训练的扩展性和稳定性。
  • 研究团队在LLaDA-1.0基础上重写训练代码,采用了7B-A1B的MOE架构。
  • LLaDA-MoE在17项基准测试中平均提升8.4%,与Qwen2.5-3B-Instruct打平。
  • 蚂蚁将开源针对dLLM并行特性优化的推理引擎,显著加速推理过程。
  • 蚂蚁将继续投入AGI领域,推动AGI的新突破。

延伸问答

LLaDA-MoE模型的主要特点是什么?

LLaDA-MoE模型是首个原生MoE架构的扩散语言模型,经过20T数据训练,性能超越LLaDA1.0/1.5和Dream-7B,推理速度高效。

LLaDA-MoE模型将于何时开源?

LLaDA-MoE模型将于近期完全开源。

LLaDA-MoE模型在性能上与其他模型相比如何?

LLaDA-MoE在代码、数学、Agent等任务上表现优于LLaDA1.0/1.5和Dream-7B,且与Qwen2.5-3B-Instruct的性能相当。

LLaDA-MoE模型采用了什么样的训练机制?

LLaDA-MoE模型通过非自回归的掩码扩散机制进行训练,首次在大规模语言模型中实现了与Qwen2.5相当的语言智能。

蚂蚁集团在AGI领域的未来计划是什么?

蚂蚁集团将持续投入AGI领域,推动AGI的新突破,并计划与学界和全球AI社区共同合作。

LLaDA-MoE模型的训练数据量是多少?

LLaDA-MoE模型在约20T数据上完成了从零训练。

➡️

继续阅读