小红花·文摘

本研究提出了一种新的混合查找专家架构（MoLE），旨在解决混合专家模型在推理时对大量专家的依赖问题。MoLE通过重参数化专家为查找表，提高了通信和显存效率。实验结果表明，MoLE的推理速度与稠密模型相当，且显著快于传统的混合专家模型，同时保持了性能水平。