通过任务提示改进 Transformer 的长度泛化
原文中文,约300字,阅读约需1分钟。发表于: 。使用任务提示的方法改善长度泛化问题,在经典的排序问题上验证了其有效性,并通过探测和可视化技术提出了模型学习行为的理论构建,进一步提高了模型在未知长度上的性能。
该文提出了两种新方法,一是通过训练模型的短子序列来降低输入长度,提高困惑度和训练效率;二是提高了transformers的递归方法的效率,通过将绝对位置嵌入到查询和键中而不是嵌入到单词中,可以在保持结果优越的情况下提高计算效率。这些技术结合起来可以加速训练1.65倍,减少内存使用,并显著提高WikiText-103上的困惑度,而不会添加任何参数。