通过任务提示改进 Transformer 的长度泛化

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文提出了两种新方法,一是通过训练模型的短子序列来降低输入长度,提高困惑度和训练效率;二是提高了transformers的递归方法的效率,通过将绝对位置嵌入到查询和键中而不是嵌入到单词中,可以在保持结果优越的情况下提高计算效率。这些技术结合起来可以加速训练1.65倍,减少内存使用,并显著提高WikiText-103上的困惑度,而不会添加任何参数。

🎯

关键要点

  • 提出两种新方法以降低输入长度并提升语言建模的困惑度和效率。
  • 研究短输入的优点,通过训练模型的短子序列减少训练时间和提高困惑度。
  • 提高transformers的递归方法效率,依赖于先前处理的令牌生成超长序列。
  • 引入将绝对位置嵌入到查询和键中而非单词中的方法,提高计算效率。
  • 结合这些技术可加速训练1.65倍,减少内存使用,显著提高WikiText-103上的困惑度,且不增加任何参数。
➡️

继续阅读