小红花·文摘 - 小红花技术领袖俱乐部

大模型推理路由难题反而催生稀疏注意力？

大模型推理路由难题反而催生稀疏注意力？

极道 ·

LongCat-2.0 开源：我更关心它能不能被团队稳稳跑起来

LongCat-2.0 开源：我更关心它能不能被团队稳稳跑起来

mongona news ·

稀宇科技推出的MiniMax-M3模型支持1M窗口，具备文本、图像和视频输入能力。基准测试显示其在编码任务上超越GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。M3采用自研的稀疏注意力架构MSA，显著降低计算成本，未来将发布开源权重模型，强调长期协作和自主迭代能力。

稀宇科技推出MiniMax-M3模型支持1M窗口在编码和智能体任务中表现突出

蓝点网 ·

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

量子位 ·

美团龙猫LongCat推出新稀疏注意力机制LoZA，解码速度提升10倍，支持处理1M长文本。通过优化模型结构，降低计算复杂度，提高效率，同时保持稳定性能。该技术在长文本任务中优于同类模型，未来将支持动态稀疏比例，以适应不同场景需求。

美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

量子位 ·

DeepSeek-V3.2在推理任务上超越GPT-5

DeepSeek-V3.2在推理任务上超越GPT-5

InfoQ ·

神经推理的蜕变：从概率解码到 DeepSeek V3.2 的理性智能体架构演进 - 张善友

神经推理的蜕变：从概率解码到 DeepSeek V3.2 的理性智能体架构演进 - 张善友

张善友 ·

DeepSeek 的闪电索引器通过计算索引分数提高模型效率，解决了全书阅读的 $O(L^2)$ 复杂度问题。它筛选出与当前查询相关的 Top-k token，将注意力复杂度降低到 $O(L k)$，显著提升计算效率。

deepseek-v3.2-exp的闪电索引器

鸟窝 ·

九章云极推出DeepSeek-V3.2-Exp模型，采用稀疏注意力架构，降低计算复杂度，提升推理性能。该模型支持一键私有化部署，确保企业数据安全与合规。Alaya NeW智算云平台提供高性能计算资源，满足多场景需求，推动AI应用普及。

九章云极率先完成DeepSeek-V3.2-Exp适配，提供安全高效部署方案

量子位 ·

vLLM中的DeepSeek-V3.2-Exp：细粒度稀疏注意力的应用

vLLM中的DeepSeek-V3.2-Exp：细粒度稀疏注意力的应用

vLLM Blog ·

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

我爱自然语言处理 ·

清华大学与面壁智能团队推出的MiniCPM 4模型，提供0.5B和8B参数规模，训练开销仅为22%。该模型在长文本处理上实现5倍加速，采用稀疏注意力架构，性能超越多款同类模型，适合端侧设备，具备高效推理能力。

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

量子位 ·

本研究提出广义邻域注意力（GNA）模型，以提高稀疏注意力机制的速度。通过在NVIDIA Blackwell架构上实现，GNA在多个生成模型中验证了28%至46%的速度提升，有效解决了注意力机制的O(n^2)复杂性问题。

Generalized Neighborhood Attention: Multidimensional Sparse Attention at the Speed of Light

BriefGPT - AI 论文速递 ·

清华稀疏Attention，无需训练加速一切模型！

清华稀疏Attention，无需训练加速一切模型！

机器之心 ·

本研究提出了XAttention框架，旨在解决长上下文变换器模型的计算成本问题。通过稀疏注意力加速推理，利用反对角值之和作为块重要性代理，实现高效的块识别与剪枝，最终实现高达13.5倍的计算加速。

XAttention: Block Sparse Attention with Antidiagonal Scoring

BriefGPT - AI 论文速递 ·

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

机器之心 ·

稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

机器之心 ·

Qwen2.5-1M: 支持100万Token上下文的开源Qwen模型

Qwen2.5-1M: 支持100万Token上下文的开源Qwen模型

Blog on Qwen ·

本研究提出差异注意力机制，通过计算两个独立softmax注意力图的差异，减少噪声，促进稀疏注意力模式，解决变换器在处理无关上下文时的注意力分配问题。实验表明，差异变换器在语言建模、长上下文建模和信息检索方面优于传统变换器。

Differential Transformer

BriefGPT - AI 论文速递 ·

本文提出了一种基于上下文感知的层次化注意力机制，以提升神经机器翻译的质量。通过引入文档级上下文和稀疏注意力机制，模型在英德数据集上验证了其有效性。同时，研究探讨了知识图谱与注意机制结合的模型，提升了文本理解和分类的准确性。

文本挖掘机器翻译的注意力机制与上下文建模系统

BriefGPT - AI 论文速递 ·