本研究提出了BigMac模型,解决了混合专家结构在全对全通信中的瓶颈问题。通过改进通信方式,BigMac实现了高效的下降-通信-通信-上升机制,显著提高了计算效率。实验结果表明,BigMac在保持模型质量的同时,训练延迟减少3.09倍,推理吞吐量提高3.11倍。
完成下面两步后,将自动完成登录并继续当前操作。