小红花·文摘

本文探讨了现代大型语言模型（LLMs）在处理长序列时的局限性，并提出了多种扩展上下文长度的方法，如LM-Infinite和LongAlign框架。研究表明，线性标度是扩展上下文的最佳方式，新模型Giraffe在长上下文任务中表现优异。通过压缩提示信息和改进训练策略，模型在长序列处理上显著提升，降低了计算成本和延迟。