TRAMS:无需训练的长程语言模型记忆选择
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略,通过一个简单的评价指标选择参与注意力计算的令牌,从而改善长程语言建模的挑战,无需额外训练或添加参数,通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。
Transformer-XL是一种新的神经架构,能够解决语言模型中的上下文破碎问题,通过分段级别的循环机制和新颖的位置编码方案,捕捉更长期的依赖关系。在评估期间,速度比普通的Transformers快1800多倍,并且在短序列和长序列上表现更好。实验结果显示,在多个语料库上,Transformer-XL表现更好。