Qwen1.5-MoE: 1/3的激活参数量达到7B模型的性能

📝

内容提要

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 介绍 今天,我们推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。它仅拥有27亿个激活参数,但其性能却能与当前最先进的70亿参数模型,如Mistral...

➡️

继续阅读