小红花·文摘

本研究提出了BigMac模型，解决了混合专家结构在全对全通信中的瓶颈问题。通过改进通信方式，BigMac实现了高效的下降-通信-通信-上升机制，显著提高了计算效率。实验结果表明，BigMac在保持模型质量的同时，训练延迟减少3.09倍，推理吞吐量提高3.11倍。