小红花·文摘 - 小红花技术领袖俱乐部

大模型推理路由难题反而催生稀疏注意力？

大模型推理路由难题反而催生稀疏注意力？

极道 ·

电子商务搜索中的稀疏嵌入微调 | 第3部分：评估与困难负样本

电子商务搜索中的稀疏嵌入微调 | 第3部分：评估与困难负样本

Qdrant - Vector Database ·

电子商务搜索中的稀疏嵌入微调 | 第1部分：稀疏嵌入为何优于BM25

电子商务搜索中的稀疏嵌入微调 | 第1部分：稀疏嵌入为何优于BM25

Qdrant - Vector Database ·

电子商务搜索中的稀疏嵌入微调 | 第4部分：专业化与泛化

电子商务搜索中的稀疏嵌入微调 | 第4部分：专业化与泛化

Qdrant - Vector Database ·

电子商务搜索中的稀疏嵌入微调 | 第5部分：从研究到产品

电子商务搜索中的稀疏嵌入微调 | 第5部分：从研究到产品

Qdrant - Vector Database ·

电子商务搜索中的稀疏嵌入微调 | 第二部分：在Modal上训练SPLADE

电子商务搜索中的稀疏嵌入微调 | 第二部分：在Modal上训练SPLADE

Qdrant - Vector Database ·

小米MiMo团队推出HySparse混合稀疏注意力架构，显著降低KV Cache的存储和计算开销，提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层，HySparse实现了高效的长距离信息访问，实验结果显示其在多项任务中表现优异。

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

量子位 ·

专为提升注意力计算，提供稀疏与密集核函数 | 开源日报 No.863

专为提升注意力计算，提供稀疏与密集核函数 | 开源日报 No.863

开源服务指南 ·

OpenAI开源的新模型采用Circuit Sparsity技术，使99.9%的权重为零，提升了模型的可解释性。通过严格的连接约束，简化了计算过程，解决了传统模型的黑箱问题。尽管计算成本较高，但未来有望实现更复杂的推理。

OpenAI突然开源新模型！99.9%的权重是0，新稀疏性方法代替MoE

量子位 ·

Infinity - 一个为稠密向量、稀疏向量等提供混合搜索的AI原生数据库

Infinity - 一个为稠密向量、稀疏向量等提供混合搜索的AI原生数据库

云原生 ·

$一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略：将粗粒度的token压缩与细粒度的token选择相结合$

一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略：将粗粒度的token压缩与细粒度的token选择相结合

结构之法算法之道 ·

DeepSeek最新模型V3.2-Exp上线，采用新稀疏注意力机制DSA，提升长文本推理效率，并开源TileLang和CUDA算子，API价格降至五折，国庆礼包也令人惊喜。

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

量子位 ·

PREAMBLE：通过块稀疏向量实现私密高效聚合

PREAMBLE：通过块稀疏向量实现私密高效聚合

Apple Machine Learning Research ·

vLLM中的DeepSeek-V3.2-Exp：细粒度稀疏注意力的应用

vLLM中的DeepSeek-V3.2-Exp：细粒度稀疏注意力的应用

vLLM Blog ·

屏蔽扩散：利用稀疏排斥生成新颖多样的图像

屏蔽扩散：利用稀疏排斥生成新颖多样的图像

Apple Machine Learning Research ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

机器之心 ·

NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS)，实现 8× KV 缓存压缩

NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS)，实现 8× KV 缓存压缩

实时互动网 ·

本研究解决了稀疏和延迟奖励函数对强化学习应用造成的挑战，提出了一种新的注意力机制算法ARES，通过使用变压器的注意力机制生成塑造奖励，从而为任何环境创建稠密奖励函数。实验表明，ARES显著改善了延迟奖励场景中的学习，能够在数据量不足或低质量数据的情况下有效进行训练。

基于注意力的稀疏和延迟奖励塑造

BriefGPT - AI 论文速递 ·

本研究解决了现有尖峰神经网络加速器未能充分利用二元激活独特分布模式的问题。提出的新框架“Phi”引入了两级稀疏性，以优化计算并显著减少运行时计算。实验结果表明，Phi在速度和能量效率上均显著优于现有尖峰神经网络加速器，具有重要的应用潜力。

Phi：利用基于模式的分层稀疏性实现高效尖峰神经网络

BriefGPT - AI 论文速递 ·

SMUGGLER：稀疏多单元粒度生成学习与容错性

SMUGGLER：稀疏多单元粒度生成学习与容错性

DEV Community ·