本研究提出了一种Top-Theta注意力方法,通过补偿阈值有效剪枝不重要的注意力元素,从而降低变压器模型的计算复杂性。在生成解码阶段,该方法将V缓存行数减少了3倍,在预填充阶段则降低了10倍的注意力元素数量,同时保持了模型的准确度。
完成下面两步后,将自动完成登录并继续当前操作。