E2LLM:用于长上下文理解和推理的编码器加长大型语言模型

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了处理较长序列时现代大型语言模型(LLMs)的上下文长度外推方法,通过测试发现线性标度是最佳方法,并且使用更长的标度在评估时可以获得进一步的收益。同时,发布了三个新的13B参数长上下文模型和相应的代码。

🎯

关键要点

  • 现代大型语言模型(LLMs)通常使用固定的上下文长度进行训练,限制了输入序列的长度。

  • 可以采用不断增长的上下文长度外推方法来处理较长序列。

  • 本文对现有的上下文长度外推方法进行了广泛调研,并介绍了一些新的设计。

  • 测试发现线性标度是扩展上下文长度的最佳方法。

  • 在评估时使用更长的标度可以获得进一步的收益。

  • 发布了三个新的13B参数长上下文模型,名为Giraffe。

  • 发布了相应的代码以支持进一步的研究。

➡️

继续阅读