本研究提出了一种名为SpargeAttn的稀疏注意力机制,旨在解决大模型推理中的时间复杂度问题。该方法通过在线过滤器快速预测注意力图,跳过部分计算,从而显著提高推理速度而不影响性能。
完成下面两步后,将自动完成登录并继续当前操作。