大型语言模型有效上下文长度为何不足?
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了开源大型语言模型(LLMs)有效上下文长度不足的问题,通常未超过训练长度的一半。通过引入ShifTed Rotray position embeddING(STRING),该方法在推理过程中优化了位置嵌入,有效提升了模型性能。实验表明,STRING在不额外训练的情况下,显著改进了最新模型在长上下文基准测试中的表现,创造了开源LLMs的新最优结果。
本研究提出了ShifTed Rotray position embeddING(STRING)方法,旨在解决开源大型语言模型(LLMs)在上下文长度方面的不足。实验结果表明,STRING在无需额外训练的情况下,显著提升了模型在长上下文基准测试中的表现。