从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读
原文中文,约3700字,阅读约需9分钟。发表于: 。23年12月9日,Mistral AI 在 X 平台甩出一条磁力链接,打开一看,发现是接近 87 GB 的种子看上去,Mistral 8x7B的架构此前传闻的GPT-4架构非常相似(很像传闻中GPT-4的同款方案),但是「缩小版」:8 个专家总数,而不是 16 名(减少一半)每个专家为 7B 参数,而不是 166B(减少 24 倍)42B 总参数(估计)而不是 1.8T(减少 42...
Mistral AI发布了开源模型Mixtral 8x7B,采用稀疏的专家混合网络架构,每个token分配给两个专家处理。模型参数总量46.7B,每个token仅使用12.9B个参数。Mixtral在基准测试中优于Llama 2 70B和GPT3.5。Mixtral还发布了指令遵循模型Mixtral 8x7B Instruct,在MT-Bench上获得8.30分数。