小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了语言模型中参数数量与计算量之间的关系，重点分析了稀疏混合专家模型的稀疏性对性能的影响。研究表明，优化稀疏性能够提升训练效率和模型性能，为设计更高效的架构提供了新视角。

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity in Mixture-of-Experts Language Models

BriefGPT - AI 论文速递 ·

新视角设计下一代时序基础模型，Salesforce推出Moirai-MoE

新视角设计下一代时序基础模型，Salesforce推出Moirai-MoE

机器之心 ·