小红花·文摘

该研究提出了一种新型Transformer模型，通过注意力层和可学习的记忆令牌显著提升了模型在新任务上的适应性和性能。引入反馈循环和优化内存操作后，模型在处理长文本任务时表现优异，展现了处理无限长序列的潜力。同时，研究探讨了模型大小与性能之间的关系，并提出了基于Hopfield网络的理论框架，揭示了Transformer的记忆过程。