小红花·文摘

智谱GLM-5技术论文公开，展示其在长任务处理上的能力，支持多种国产芯片。通过引入稀疏注意力机制和异步强化学习，显著提升了效率。GLM-5在多项评测中表现优异，成为开源AI领域的重要模型，受到国际关注。

量子位 ·

$一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA)：让q跟最相关的k/v做注意力计算，以降低MLA的计算量$

结构之法算法之道 ·

DeepSeek-V3.2系列模型发布，性能接近Gemini-3.0-Pro，适合日常问答和复杂任务。引入稀疏注意力机制DSA，显著降低计算复杂度。模型在Agent任务上表现优异，支持思考与工具调用。尽管存在知识广度和Token效率的局限，团队计划在未来版本中进行改进。

量子位 ·

我爱自然语言处理 ·

DeepSeek最新模型V3.2-Exp上线，采用新稀疏注意力机制DSA，提升长文本推理效率，并开源TileLang和CUDA算子，API价格降至五折，国庆礼包也令人惊喜。

量子位 ·

本研究提出了一种名为SpargeAttn的稀疏注意力机制，旨在解决大模型推理中的时间复杂度问题。该方法通过在线过滤器快速预测注意力图，跳过部分计算，从而显著提高推理速度而不影响性能。

BriefGPT - AI 论文速递 ·

机器之心 ·

该文提出了一种基于上下文感知 NMT 的层次化注意力机制，用于处理整个文档的翻译。该方法使用稀疏注意力机制在文档上选择性地关注相关句子和关键词，并将这些注意力模块产生的文档级上下文表示集成到 Transformer 模型的编码器或解码器中。在英德数据集上的实验进一步验证了该方法的有效性。

BriefGPT - AI 论文速递 ·