小红花·文摘

DeepSeek-V3.2-Exp模型已在华为云上线，采用稀疏Attention架构，提升推理效率，降低资源消耗，支持160K长序列，适合企业和开发者使用。

DeepSeek-V3.2-Exp第一时间上线华为云

量子位 ·

Mamba探讨了状态空间模型（SSMs）与Transformer的优劣，指出Attention并非万能，SSMs在处理长序列信息时更具优势。Mamba在同规模下超越Transformer，强调混合模型的潜力，未来可能结合两者优势开发新架构。

Mamba一作预告新架构！长文论述Transformer≠最终解法

量子位 ·

SMUGGLER：亚二次方多尺度统一生成门控语言编码器-表示

DEV Community ·

清华稀疏Attention，无需训练加速一切模型！

机器之心 ·

本研究提出了ATTENTION2D方法，旨在解决传统自注意力机制在处理长序列时的计算和内存成本问题。该方法通过查询与键/值维度的并行性，实现了高效的分布与并行化，实验结果显示训练和推理速度提升了5至9.4倍。

ATTENTION2D: A Communication-Efficient Distributed Self-Attention Mechanism

BriefGPT - AI 论文速递 ·

一文看懂 DeepSeek 刚刚开源的 FlashMLA，这些细节值得注意

爱范儿 ·

解锁效率：LServe在长序列语言模型中的突破

DEV Community ·

本研究提出LServe系统，旨在解决长序列大型语言模型在预填充和解码阶段的计算复杂度和内存占用问题。通过混合稀疏注意力，该系统使预填充速度提升近2.9倍，解码速度提升1.3-2.1倍，同时保持长序列的精度。

LServe: Efficient Long-Sequence LLM Service with Unified Sparse Attention

BriefGPT - AI 论文速递 ·

本研究提出LASP-2序列并行方法，优化线性注意力的右乘特性，显著提升长序列训练的通信和计算并行性，训练速度比LASP快15.2%，比环形注意力快36.6%。

LASP-2: Rethinking Sequence Parallelism of Linear Attention and Its Hybrid Methods

BriefGPT - AI 论文速递 ·

本文探讨了传统Softmax注意力在推理令牌长度增加时的数值不稳定和性能下降问题。提出了一种新颖的Softplus注意力机制，结合动态长度尺度因子和重新加权，显著提升了大型语言模型在处理长序列时的稳定性和性能。

Softplus Attention with Re-weighting Enhances Length Extrapolation Capability in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了TreeKV，一种直观且无需训练的键值缓存压缩方法，旨在解决长序列和资源有限环境中的信息保留问题。TreeKV通过树结构实现平滑缓存压缩，在语言建模任务中表现优异，相比基线模型在长上下文中显著提升性能，最佳效率仅需6%的预算。

TreeKV：基于树结构的平滑键值缓存压缩

BriefGPT - AI 论文速递 ·

本研究首次全面评估RWKV模型，填补了系统性综述的空白。RWKV通过独特的递归框架有效处理长序列，降低计算成本，展现出优越性能，并指出未来研究方向。

A Review of the RWKV Model

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的Perceiver基架构（Long LoRA Perceiver - LLP），旨在解决Transformer在长序列处理中的复杂度问题。通过引入三种结构增强，该架构在自回归建模中实现了高性能与计算效率的平衡，实验结果表明其在多个基准测试中超越了最新的Transformer模型。