小红花·文摘

本文探讨了长上下文模型的工程挑战与解决方案，包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加，模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码，并结合线性注意力和稀疏注意力优化计算效率。在训练方面，采用短预训练与长继续预训练相结合的策略，推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16：长上下文工程

土法炼钢兴趣小组的博客 ·

本研究探讨了长上下文模型在多文档摘要中的效能，提出了一种结合检索增强系统与语言模型的混合方法，通过估算最佳检索长度来优化配置。实验结果表明，该方法在多文档摘要任务中表现优异。

Estimating Optimal Context Length for Hybrid Retrieval-Augmented Multi-Document Summarization

BriefGPT - AI 论文速递 ·

该推文讨论了长上下文模型与RAG模型的优劣势。长上下文模型在解码过程中可以同时混合检索和推理，而RAG只在最开始时进行检索。长上下文模型虽然只支持100万上下文，而RAG支持万亿级别的上下文，但作者认为绝大多数情况下都不需要超过100万上下文的检索。长上下文模型可以使用缓存，而RAG需要重新输入整个文档。作者对长上下文模型的未来发展持乐观态度。

大模型“长上下文”将取代RAG吗？

极道 ·

该文介绍了一种用于训练现代大型语言模型的上下文长度外推方法，以处理更长的输入序列。作者测试了三个新的评估任务，并发现线性标度是扩展上下文长度的最佳方法。作者还发布了三个新的长上下文模型，名为Giraffe，并提供了复制结果的代码。

通过在分段序列上训练扩展语言模型的输入上下文

BriefGPT - AI 论文速递 ·

本文介绍了一种用于训练现代大型语言模型的不断增长的上下文长度外推方法，并测试了三个新的评估任务。作者发现线性标度是扩展上下文长度的最佳方法，并且使用更长的标度可以获得进一步的收益。作者还发布了三个新的长上下文模型，并提供了复制结果的代码。

LongLoRA: 长文本大语言模型的高效微调

BriefGPT - AI 论文速递 ·