DeepSeek V4的tid2eid是怎么来的?

📝

内容提要

训过MoE的同学都知道,如果把整个模型的MLP部分都换成MoE,那么靠近Embedding的前几层MoE往往很难实现负载均衡。对此,DeepSeek V3,包括我们的Kimi K2,采取的应对策...

🏷️

标签

➡️

继续阅读