Why Is the Effective Context Length of Large Language Models Insufficient?

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了开源大型语言模型(LLMs)在有效上下文长度不足的问题。通过引入ShifTed Rotray position embeddING(STRING)优化位置嵌入,显著提升了模型性能。实验结果表明,STRING在不额外训练的情况下,改善了模型在长上下文基准测试中的表现,创造了新的最优结果。

🎯

关键要点

  • 本研究探讨了开源大型语言模型(LLMs)有效上下文长度不足的问题。
  • 有效上下文长度通常未超过训练长度的一半。
  • 引入了ShifTed Rotray position embeddING(STRING)来优化位置嵌入。
  • STRING在推理过程中显著提升了模型性能。
  • 实验结果表明,STRING在不额外训练的情况下,改善了模型在长上下文基准测试中的表现。
  • STRING创造了开源LLMs的新最优结果。
➡️

继续阅读