通过任务提示改进 Transformer 的长度泛化
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文提出了两种新方法,一是通过训练模型的短子序列来降低输入长度,提高困惑度和训练效率;二是提高了transformers的递归方法的效率,通过将绝对位置嵌入到查询和键中而不是嵌入到单词中,可以在保持结果优越的情况下提高计算效率。这些技术结合起来可以加速训练1.65倍,减少内存使用,并显著提高WikiText-103上的困惑度,而不会添加任何参数。
🎯
关键要点
- 提出两种新方法以降低输入长度并提升语言建模的困惑度和效率。
- 研究短输入的优点,通过训练模型的短子序列减少训练时间和提高困惑度。
- 提高transformers的递归方法效率,依赖于先前处理的令牌生成超长序列。
- 引入将绝对位置嵌入到查询和键中而非单词中的方法,提高计算效率。
- 结合这些技术可加速训练1.65倍,减少内存使用,显著提高WikiText-103上的困惑度,且不增加任何参数。
➡️