Transformer 模型可以实现长度概括，但不具备鲁棒性

使用适当的数据格式和位置编码的组合，本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同随机种子之间存在较大差异。

Transformer-XL是一种新的神经架构，能够超越固定长度的依赖关系，并解决上下文破碎问题。它比普通的Transformers快1800多倍，并在短序列和长序列上表现更好。实验结果显示，Transformer-XL在多个语料库上表现优于当前最先进的结果。

Transformer-XL transformer 上下文破碎问题依赖关系神经架构表现优秀