小红花·文摘

技术深度剖析：DigitalOcean和AMD如何为Character.ai实现2倍的生产推理性能提升

The DigitalOcean Blog ·

vLLM新KV卸载连接器内部揭秘：智能内存传输以最大化推理吞吐量

vLLM Blog ·

老显卡福音！美团开源首发INT8无损满血版DeepSeek R1

美团技术团队 ·

老显卡福音！美团技术团队开源首发INT8无损满血版DeepSeek R1

机器之心 ·

Llamba是一种高效的循环语言模型，源自Llama-3.x，旨在克服变压器模型在推理吞吐量和大批量处理上的局限。该模型通过跨架构蒸馏，优化了速度、内存效率和性能，特别适用于智能手机和边缘平台。

Llamba: A Distilled Recurrent Model for Scalable Efficient Language Processing

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在大规模数据集上实验，提取可部署的子网络。实验结果表明，task-MoE在WMT上的表现比token-MoE高1.0 BLEU，保留所有收益并与蒸馏后的student模型推理成本相同。在扩展到200种语言对时，task-MoE提高了推理吞吐量2.6倍。

动态专家分配的混合专家模型：DA-MoE

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在大规模数据集上实验，提取可部署的子网络。实验结果表明，task-MoE模型在多种语言对上的表现优于token-MoE模型，并且推理成本相同。在扩展到200种语言对时，task-MoE模型提高了推理吞吐量。

MoE-LPR：通过语言先验路由的专家混合模型实现大型语言模型的多语言扩展

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在大规模数据集上实验，提取可部署的子网络。实验结果表明，task-MoE模型在多种语言对上的表现优于token-MoE模型，并且推理成本相同。在扩展到200种语言对时，task-MoE模型提高了推理吞吐量2.6倍。

砰！就这样：混合专家的简单高效参数再利用

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在大规模数据集上实验，能够从大型稀疏模型中提取更小、可部署的子网络。实验结果显示，task-MoE在WMT上的表现比token-MoE高1.0 BLEU，并且推理成本相同。在扩展到200种语言对时，task-MoE提高了推理吞吐量2.6倍。

利用层间专家亲和性加速混合专家模型推理

BriefGPT - AI 论文速递 ·

本文介绍了一种新的注意力模型Mamba，它基于SSM架构，具有线性复杂度和5倍推理吞吐量。Mamba在多个模态上表现出SOTA水平，在预训练和下游任务上都优于同类模型。作者认为Mamba是通用序列模型骨干的有力候选者。

一文通透想颠覆Transformer的Mamba：从SSM、HiPPO、S4到Mamba

结构之法算法之道 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在数据集上进行实验，能够从大型稀疏模型中提取更小、可部署的子网络。实验结果表明，task-MOE在30种语言对上的表现平均比token-MoE高1.0 BLEU，并且能够保留所有收益。同时，当扩展到200种语言对时，task-MoE表现相近，并且提高了推理吞吐量2.6倍。

令牌混合：通过跨样本聚合实现高效的 LLMs

BriefGPT - AI 论文速递 ·