本研究提出了一种新的混合专家模型(CartesianMoE),通过笛卡尔乘积路由提升专家之间的知识共享。该方法在困惑度和下游任务性能上优于传统模型,并增强了专家路由的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。