机器之心 ·

稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

华为诺亚方舟实验室发布的新ESA算法通过稀疏注意力设计，突破了大模型在长文本处理中的瓶颈，显著提升了计算效率和性能。ESA通过低维压缩和动态选择关键token，降低了计算复杂度，适用于长序列任务，实验结果显示其在多项基准测试中优于传统方法。

🎯

🔎

ESA算法通过稀疏注意力设计，显著降低了长序列任务中的计算复杂度。这种设计使得模型在处理长文本时，能够在保持性能的同时，减少对计算资源的需求，适合在算力有限的环境中应用。

ESA引入了基于query感知的动态选择机制，能够灵活选择关键token。这种方法不仅提高了计算效率，还避免了传统方法中因固定选择而导致的性能损失，为长序列处理提供了新的思路。

实验表明，ESA在多个基准测试中表现优于传统的全注意力方法，尤其在处理长序列时。这提示研究者在设计新算法时，可以考虑结合稀疏性和动态选择，以提升模型的整体性能。

❓

ESA算法的主要创新点在于通过token粒度选择性注意力机制，动态选择最关键的少量token，从而显著降低计算复杂度，同时保持模型的准确率。

ESA算法通过稀疏注意力设计和低维压缩，动态选择关键token，降低计算复杂度，从而显著提高长文本处理的效率。

实验结果表明，ESA在多个基准测试中优于传统方法，尤其在长序列任务中表现突出，能够处理长度为训练长度4倍甚至25倍的任务。

ESA算法通过对query和key进行低维压缩，减少token选择的计算复杂度，并在选择关键token后使用完整的query和key进行注意力计算。

ESA算法的选择性注意力机制利用了注意力矩阵的稀疏性，能够灵活、精准地选择关键信息，显著降低计算量，同时避免性能损失。

未来的研究需要探索更准确、更高效的选择重要token的方法，以及软硬件协同的高效外推方案。

🏷️