小红花·文摘

即将到来的循环

Armin Ronacher's Thoughts and Writings ·

Transformer-XL是一种新的神经架构，能够解决语言模型中的上下文破碎问题，通过分段级别的循环机制和新颖的位置编码方案，捕捉更长期的依赖关系。在评估期间，速度比普通的Transformers快1800多倍，并且在短序列和长序列上表现更好。实验结果显示，在多个语料库上，Transformer-XL表现更好。

TRAMS：无需训练的长程语言模型记忆选择

BriefGPT - AI 论文速递 ·