小红花·文摘

本研究提出了一种层次稀疏注意力（HSA）机制，解决了递归神经网络（RNN）在随机访问历史上下文方面的局限性。结合HSA与Mamba形成的RAMba在6400万上下文中实现了完美的密码检索准确率，展示了其在长上下文建模中的潜力。

Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention

BriefGPT - AI 论文速递 ·

微软与清华团队提出改进版Differential Transformer，通过差分注意力替代传统softmax，解决了传统Transformer的噪声问题，显著提升了长上下文建模和信息检索任务的性能，模型参数需求减少至65%。实验结果表明，DIFF Transformer在准确性和稳定性上优于传统模型，代码已开源。

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

量子位 ·