小红花·文摘

本文分析了Mixtral 8x7B模型的架构与性能，指出其与GPT-4相似但参数更少。Mixtral采用MoE架构，通过选择两个专家处理每个token，提高了推理速度和效率。该模型在多项基准测试中优于Llama 2 70B和GPT-3.5，并引入GQA机制以降低参数量。总体而言，Mixtral在指令遵循和性能上表现出色。

一文速览DeepSeekMoE：从Mixtral 8x7B到DeepSeekMoE(含MoE架构的实现及DS LLM的简介)

结构之法算法之道 ·

专家混合模型 (MoE) 详解：Mixtral 8X7B、DBRX 和 Deepseek-v2 的架构与应用

逐水寻源 ·

华为Pura 70 Ultra搭载旋动弹性镜头结构，京东建立2家交易公司，我国首个音乐SOTA模型开启公测，游族网络有人事变动，美团宣布CEO变动，微软计划堆集180万枚AI芯片，Mistral发布最新开扩大模型，马斯克表明X新用户需付费发帖，马斯克称遣散费过低将补偿，Firefox 125发布，微软发布Vision Pro原生OneNote运用。

马斯克称一些被裁员工的遣散费过低，将予以补偿；Mistral 宣布最新开放大模型 Mixtral 8x22B | 极客头条

六虎 ·

如何设置 Mixtral-8x22B | 基础模型提示入门 [译]

宝玉的分享 ·

该文章讨论了使用专家来提高推理速度的方法。作者提出了一种使用两名专家的方法，以减少计算量。同时，作者还提到了使用更多专家可能会对模型产生负面影响。该模型是一种开放权重模型，具有宽松的许可证，并在成本/性能权衡方面表现最佳。

七月论文审稿GPT第4版：通过paper-review数据集微调Mixtral-8x7b，对GPT4胜率超过80%

结构之法算法之道 ·

该研究基于稀疏专家混合（SMoE）语言模型的 Mixtral，提出了 Chinese-Mixtral 和 Chinese-Mixtral-Instruct，通过预训练和微调改进了中文语言能力，保留了英语能力。研究讨论了语言适应的关键问题，并提供了实证结果和分析。研究资源在 https://github.com/ymcui/Chinese-Mixtral 公开提供。

重新思考 LLM 语言适应：以中文 Mixtral 为案例研究

BriefGPT - AI 论文速递 ·

本文介绍了如何使用C#运行开源大模型Mixtral-8x7B。首先准备环境，安装.NET SDK、TensorFlow.NET和ONNX Runtime。然后下载Mixtral-8x7B模型并进行格式转换。最后编写C#代码加载和运行模型。根据实际需求调整输入尺寸、数据类型、输出名称和数量。编译并运行程序，观察输出结果是否符合预期。

纯c#运行开源本地大模型Mixtral-8x7B

dotNET跨平台 ·

Mixtral 8x7B是基于解码器架构的开源大型语言模型，拥有46.7B个参数，并使用稀疏的专家混合（MOE）网络。该模型在基准测试中表现良好，可以使用PAI平台进行微调和部署。PAI-DSW和Swift是两个可用于微调模型的工具。Deepspeed也可用于轻量级微调。PAI-EAS是一个可用于部署模型的弹性推理服务。PAI-QuickStart提供了一种简单的方式来微调和部署模型。

Mixtral 8X7B MoE 模型基于阿里云人工智能平台PAI实践合集

阿里云云栖号 ·

Mixtral 8x7B是一种先进的开源语言模型，在许多基准测试中表现优于GPT-3.5。它支持多种语言，上下文长度为32K个标记。Mixtral AI还发布了Mixtral 8x7B的经过精细调整的版本，在基于指令的任务中表现出色。阿里巴巴云的PAI平台为Mixtral 8x7B提供全面支持，使开发人员和企业用户能够轻松地进行精细调整和部署模型。PAI-QuickStart通过集成高质量的预训练模型，并提供零代码和基于SDK的方法来简化开发过程，包括训练、部署和推理。

Mixtral 8X7B MoE 模型在阿里云PAI平台的微调部署实践

阿里云云栖号 ·

在Google Colab上免费运行Mixtral 8x7b

KDnuggets ·

Mixtral 8x7B是一种基于decoder-only架构的稀疏专家混合网络（MOE）开源大语言模型，具有46.7B的参数量。通过选择两组专家网络进行处理并将其输出累加组合，优化了模型推理的成本。在基准测试中，该模型表现相当于Llama2 70B和GPT-3.5，具有高的使用性价比。本文介绍了在阿里云PAI平台上微调和推理Mixtral 8x7B模型的最佳实践，包括使用PAI-DSW和Swift进行微调，使用Deepspeed进行轻量化微调，以及使用PAI-EAS在线部署和调用模型的方法。

快速玩转 Mixtral 8x7B MOE大模型！阿里云机器学习 PAI 推出最佳实践

阿里云云栖号 ·

Mistral AI发布了开源模型Mixtral 8x7B，采用稀疏的专家混合网络架构，每个token分配给两个专家处理。模型参数总量46.7B，每个token仅使用12.9B个参数。Mixtral在基准测试中优于Llama 2 70B和GPT3.5。Mixtral还发布了指令遵循模型Mixtral 8x7B Instruct，在MT-Bench上获得8.30分数。

从Mistral 7B到MoE模型Mixtral 8x7B的全面解析：从原理分析到代码解读

结构之法算法之道 ·

在Databricks模型服务中引入Mixtral 8x7B

Databricks ·

在 LlamaIndex，我们是开源软件的忠实支持者，因此像 Mixtral 这样开放的模型和具有灵活授权的项目正合我们心意。我们收到了不少关于如何将 Mixtral 与 LlamaIndex 结合使用的咨询，因此本文将指导你如何在本地完全独立地运行这一模型。

在本地运行 Mixtral 8x7 与 LlamaIndex [译]

宝玉的分享 ·

You may have heard the fuss about the latest release from European AI powerhouse Mistral AI: it’s called Mixtral 8x7b, a “mixture of experts” model — eight of them, each trained with 7 billion...

Running Mixtral 8x7 locally with LlamaIndex and Ollama

Blog on LlamaIndex ·

Mistral发布了Mixtral 8x7B，一种具有开放权重的高质量稀疏专家混合模型。Mixtral-8x7b-32kseqlen、DiscoLM-mixtral-8x7b-v2已上线。Mixtral优化了Together推理引擎，速度高达100个token/秒，价格为0.0006美元/1K代币。Mixtral在基准测试中优于Llama 2 70B，匹配或优于GPT3.5。它处理32k令牌的上下文，处理多种语言，代码生成性能强大。快速排序是一种快速高效的排序算法，时间复杂度为O(n log n)。

一文速览DeepSeekMoE：从Mixtral 8x7B到DeepSeekMoE(含MoE架构的实现及DS LLM的简介)

专家混合模型 (MoE) 详解：Mixtral 8X7B、DBRX 和 Deepseek-v2 的架构与应用

马斯克称一些被裁员工的遣散费过低，将予以补偿；Mistral 宣布最新开放大模型 Mixtral 8x22B | 极客头条

如何设置 Mixtral-8x22B | 基础模型提示入门 [译]

七月论文审稿GPT第4版：通过paper-review数据集微调Mixtral-8x7b，对GPT4胜率超过80%

重新思考 LLM 语言适应：以中文 Mixtral 为案例研究

纯c#运行开源本地大模型Mixtral-8x7B

Mixtral 8X7B MoE 模型基于阿里云人工智能平台PAI实践合集

Mixtral 8X7B MoE 模型在阿里云PAI平台的微调部署实践

在Google Colab上免费运行Mixtral 8x7b

快速玩转 Mixtral 8x7B MOE大模型！阿里云机器学习 PAI 推出最佳实践

从Mistral 7B到MoE模型Mixtral 8x7B的全面解析：从原理分析到代码解读

在Databricks模型服务中引入Mixtral 8x7B

在本地运行 Mixtral 8x7 与 LlamaIndex [译]

Running Mixtral 8x7 locally with LlamaIndex and Ollama

Mistral的Mixtral 8x7B在线测试网址

Mixtral 8x7B -- 混合专家模型（Mixtral of Experts） [译]

深入解析“混合专家模型（Mixtral of Experts）” [译]