本研究提出汉明注意力蒸馏方法,旨在解决预训练变换器模型在扩展上下文窗口时的高计算和内存开销问题。该方法通过二值化键和值,并使用汉明距离替代点积,显著提高了效率,降低了长上下文推断的计算成本,同时在多个任务上展现了更好的准确性。
完成下面两步后,将自动完成登录并继续当前操作。