量子位 ·

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

北京大学团队提出的新稀疏注意力机制HISA，速度提升2-4倍，几乎不损失精度。该机制通过块级粗过滤和块内精挑字符，降低索引器成本，适应超长文本需求，工程友好性强。测试结果显示HISA在速度和精度上表现优异，未来可进一步优化块特征计算和训练方式。

🎯

🔎

HISA机制的设计使其能够无缝替换现有的DSA索引器，且无需重新训练模型。这一特性大大降低了工程实施的复杂性，适合快速部署在现有系统中，尤其是在处理超长文本时，能够显著提升效率。

HISA在处理超长文本时表现出色，尤其是在64K长度文本的测试中，速度提升可达3.75倍。这一优势使其在实际应用中，特别是需要快速检索和理解长文本的场景中，具有重要的实用价值。

尽管HISA在速度和精度上表现优异，但仍存在块大小固定的问题，可能影响整体标签的准确性。未来可以考虑引入自适应块和重叠块的设计，以进一步提升筛选的精准度和效率。

❓

HISA机制的主要优势在于速度提升2-4倍，几乎不损失精度，并且可以无缝替换原有索引器，无需重新训练。

HISA通过块级粗过滤和块内精挑字符的方式，先筛选出相关块，再在小块中精细选字符，从而降低了索引器的搜索成本。

HISA在长文本理解和关键信息检索任务中表现优异，精度几乎与原DSA相同，且在64K长度文本下提速最高可达3.75倍。

HISA对超参数选择不敏感，表现稳定，工程落地时无需进行精细调参。

HISA的复杂度从O(L²)降至O(L²/B + L×m×B)，显著提高了处理效率。

未来HISA可改进块的自适应性、筛选与模型训练结合，以及测量端到端性能。

🏷️