小红花·文摘

该研究提出了一种名为Infini-attention的新技术，可以将Transformer模型扩展到无限长输入，同时保持有限的内存和计算。通过结合压缩记忆、局部注意力和长期线性注意力，该方法在长文本建模和大规模任务中表现优异，实现了快速推理。