结构之法算法之道 ·

一文速览DeepSeekMoE：从Mixtral 8x7B到DeepSeekMoE(含MoE架构的实现及DS LLM的简介)

💡 原文中文，约17500字，阅读约需42分钟。

📝

内容提要

本文分析了Mixtral 8x7B模型的架构与性能，指出其与GPT-4相似但参数更少。Mixtral采用MoE架构，通过选择两个专家处理每个token，提高了推理速度和效率。该模型在多项基准测试中优于Llama 2 70B和GPT-3.5，并引入GQA机制以降低参数量。总体而言，Mixtral在指令遵循和性能上表现出色。

🎯

关键要点

Mixtral 8x7B模型架构与GPT-4相似，但参数更少。
Mixtral采用MoE架构，通过选择两个专家处理每个token，提高推理速度和效率。
Mixtral在多项基准测试中优于Llama 2 70B和GPT-3.5。
Mixtral引入GQA机制以降低参数量。
Mixtral在指令遵循和性能上表现出色。
Mixtral 8x7B的整体架构为47B参数，采用32K上下文。
Mixtral是一个稀疏的专家混合网络，使用门控网络选择专家。
Mixtral的参数总量为46.7B，但每个token仅使用12.9B参数。
Mixtral的GQA机制降低了K、V的参数量。
Mixtral与Llama 2和GPT-3.5的比较显示其在大多数基准测试中表现优异。
Mixtral 8x7B Instruct通过监督微调和直接偏好优化提高指令遵循能力。
DeepSeekMoE提出细粒度专家分割和共享专家隔离以提高模型性能。
细粒度专家分割允许将多样化知识更精细地分解。
共享专家隔离减少了专家参数的冗余，提高了模型的专业化程度。
负载平衡策略包括专家级平衡损失和设备级平衡损失。

🏷️

继续阅读

mace：又一个嵌入式 key-value 存储
mace 是一个基于 Rust 的嵌入式 KV 引擎，结合了 B+ 树和 LSM 树的优点，适合高并发读写和扫描场景。支持 ACID 事务和 MVCC，性...
TDK在印度设立亚太区域总部，启用双城行政管理架构
TDK公司将在印度班加罗尔设立亚太区域总部，2026年4月1日启用，采用“双城”管理架构，班加罗尔负责增长战略，新加坡负责治理与合规。
上下文衰退如何影响企业AI和大型语言模型（LLM）的结果，以及如何解决这一问题
上下文衰退影响企业AI和大型语言模型（LLM）的表现。旧数据未被清除，导致信息混乱和推理能力下降。企业需监控关键数据指标，清除过时数据，以提升AI的准确性和效率。
深入探讨：GitHub Agentic Workflows 的安全架构
自动化在软件开发中带来便利，但也带来安全隐患。GitHub Agentic Workflows通过分层安全架构确保代理在CI/CD中安全运行，防止未授权访...
物理信息机器学习新突破！新型GNN架构可对复杂多体动力系统进行准确预测，赋能机器人/航空航天/材料科学
瑞士洛桑联邦理工学院提出的DYNAMI-CAL GraphNet结合物理规律与图神经网络，显著提高了多体动力系统的建模精度和稳定性，适用于机器人和航空航天等领域。
天罡智算推出面向产业园区的一人公司专属赋能平台
（全球TMT2026年3月10日讯）近日，天罡智算——上海梵数智算算力科技有限公司旗下AI应用场景一体化解决方 […]

一文速览DeepSeekMoE：从Mixtral 8x7B到DeepSeekMoE(含MoE架构的实现及DS LLM的简介)

内容提要

关键要点

标签

继续阅读