Qwen1.5-MoE: 1/3的激活参数量达到7B模型的性能
📝
内容提要
GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 介绍 今天,我们推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。它仅拥有27亿个激活参数,但其性能却能与当前最先进的70亿参数模型,如Mistral...
➡️
GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 介绍 今天,我们推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。它仅拥有27亿个激活参数,但其性能却能与当前最先进的70亿参数模型,如Mistral...