Transformer 模型可以实现长度概括,但不具备鲁棒性
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
Transformer-XL是一种新的神经架构,能够超越固定长度的依赖关系,并解决上下文破碎问题。它比普通的Transformers快1800多倍,并在短序列和长序列上表现更好。实验结果显示,Transformer-XL在多个语料库上表现优于当前最先进的结果。
🎯
关键要点
- 提出了一种名为 Transformer-XL 的神经架构。
- Transformer-XL 能够超越固定长度的依赖关系,保持时间上的一致性。
- 通过分段级别的循环机制和新颖的位置编码方案,捕捉更长期的依赖关系。
- 解决了上下文破碎问题。
- 速度比普通的 Transformers 快 1,800 多倍。
- 在短序列和长序列上表现更好。
- 实验结果显示,在多个语料库上表现优于当前最先进的结果。
🏷️
标签
➡️