混元大模型:腾讯推出的开源MoE模型,激活参数达到520亿
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种混元大模型,参数达到3890亿,克服了开源Transformer混合专家模型的不足。该模型在基准测试中表现优异,超越了LLama3.1-70B,并与LLama3.1-405B相当,推动了模型开发的进展。
🎯
关键要点
- 本研究提出了一种混元大模型,参数达到3890亿。
- 该模型克服了开源Transformer混合专家模型的不足。
- 模型中520亿为激活参数。
- 在多项基准测试中,该模型表现优越,超越了LLama3.1-70B。
- 与LLama3.1-405B相比,该模型展现出相当的性能。
- 研究推动了未来模型开发和优化的进展。
➡️