该研究提出了一种名为Infini-attention的新技术,可以将Transformer模型扩展到无限长输入,同时保持有限的内存和计算。通过结合压缩记忆、局部注意力和长期线性注意力,该方法在长文本建模和大规模任务中表现优异,实现了快速推理。
完成下面两步后,将自动完成登录并继续当前操作。