北大团队改造DeepSeek注意力,速度快四倍还不丢精度

北大团队改造DeepSeek注意力,速度快四倍还不丢精度

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

北京大学团队提出的新稀疏注意力机制HISA,速度提升2-4倍,几乎不损失精度。该机制通过块级粗过滤和块内精挑字符,降低索引器成本,适应超长文本需求,工程友好性强。测试结果显示HISA在速度和精度上表现优异,未来可进一步优化块特征计算和训练方式。

🎯

关键要点

  • 北京大学团队提出的新稀疏注意力机制HISA,速度提升2-4倍,几乎不损失精度。

  • HISA通过块级粗过滤和块内精挑字符,降低索引器成本,适应超长文本需求。

  • HISA在DeepSeek-V3.2和GLM-5上替换索引器,无需微调,精度与原方法持平。

  • HISA的核心思路是先按块筛选,再在小块中精细选字符,降低索引器的搜索成本。

  • HISA的复杂度从O(L²)降至O(L²/B + L×m×B),提高了处理效率。

  • 在64K长度文本下,HISA比原DSA索引器最高提速3.75倍,常规设置提速2倍以上。

  • HISA在长文本理解和关键信息检索任务中表现优异,精度几乎与DSA相同。

  • HISA对超参数选择不敏感,鲁棒性强,工程落地时无需精细调参。

  • 未来HISA可改进块的自适应性、筛选与模型训练结合,以及测量端到端性能。

  • 论文由北京大学张牧涵团队撰写,张牧涵为人工智能研究院助理教授。

延伸问答

HISA机制是如何提升DeepSeek的速度的?

HISA通过块级粗过滤和块内精挑字符的方式,降低了索引器的搜索成本,从而实现了速度提升2-4倍。

HISA在精度上与原有的DSA相比如何?

HISA在精度上几乎与原DSA持平,且在某些任务中表现更优。

HISA的复杂度是如何变化的?

HISA的复杂度从O(L²)降至O(L²/B + L×m×B),显著提高了处理效率。

HISA在长文本处理中的表现如何?

HISA在长文本理解和关键信息检索任务中表现优异,速度提升显著,精度几乎不变。

HISA的工程友好性体现在什么方面?

HISA无需重新训练模型,直接替换原索引器即可,且对超参数选择不敏感,鲁棒性强。

未来HISA可能的改进方向有哪些?

未来HISA可改进块的自适应性、筛选与模型训练结合,以及测量端到端性能。

➡️

继续阅读