小红花·文摘

本文介绍了 exttt{Open-RAG}模型，通过稀疏专家混合（MoE）提升开源大型语言模型的推理能力，优化复杂查询的处理。该模型结合结构学习和动态选择专家，平衡性能与速度，生成更准确的响应。

Open-RAG：将开源LLM模型集成为高效RAG模型 | ENMLP'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本研究提出一种基于稀疏专家混合（MoE）的微调方法，降低大语言模型微调成本。通过优化MoE层，提高单GPU的精度和性能，并估算云端微调成本，为行业和学术界提供预算支持。

利格核：高效的Triton核用于大规模语言模型训练

BriefGPT - AI 论文速递 ·

该研究基于稀疏专家混合（SMoE）语言模型的 Mixtral，提出了 Chinese-Mixtral 和 Chinese-Mixtral-Instruct，通过预训练和微调改进了中文语言能力，保留了英语能力。研究讨论了语言适应的关键问题，并提供了实证结果和分析。研究资源在 https://github.com/ymcui/Chinese-Mixtral 公开提供。

重新思考 LLM 语言适应：以中文 Mixtral 为案例研究

BriefGPT - AI 论文速递 ·