小红花·文摘

面壁智能推出SALA混合注意力架构，支持处理百万上下文，显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行，已开源，推动端侧智能发展。

9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力架构SALA立功了！

量子位 ·

GPT 5.2模型现已在Vercel AI Gateway上可用

Vercel News ·

DeepSeek最新模型V3.2-Exp上线，采用新稀疏注意力机制DSA，提升长文本推理效率，并开源TileLang和CUDA算子，API价格降至五折，国庆礼包也令人惊喜。

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

量子位 ·

阿里开源的长文本深度思考模型QwenLong-L1在长文本推理中表现优异，采用渐进式强化学习解决训练难题。其32B版本性能与Claude-3.7相当，成功过滤干扰信息，提升推理准确性。通过预热微调和分阶段强化学习，模型逐步适应长文本，显著超越传统模型。

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题

量子位 ·

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

机器之心 ·

突破：语言人工智能模型可以从自身输出中学习，增强长文本推理能力

DEV Community ·

这篇文章介绍了一种名为“树注意力”的新型注意力机制，可以在多个GPU上并行运行，提高长文本推理的速度。树注意力的关键之处在于通信步数随设备数量成对数增长，而不是线性增长，因此随着设备数量增大，其优势更加明显。与之前的环注意力相比，树注意力不仅可以节省峰值内存占用，还能保持完整的注意力计算。树注意力的设计还充分利用了GPU集群的两级拓扑特点，进一步提高了性能。这项研究对于高推理需求的大型公司非常重要。

30行代码，500万长文本推理提速8倍！「树注意力」让GPU越多省的越多

量子位 ·