土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】16：长上下文工程

💡 原文中文，约19000字，阅读约需46分钟。

📝

内容提要

本文探讨了长上下文模型的工程挑战与解决方案，包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加，模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码，并结合线性注意力和稀疏注意力优化计算效率。在训练方面，采用短预训练与长继续预训练相结合的策略，推理时利用前缀缓存和KV压缩等技术提高效率。

🎯

关键要点

长上下文模型面临计算复杂度和显存限制，需重构注意力计算和位置编码。
采用RoPE、YaRN等技术扩展位置编码，结合线性注意力和稀疏注意力优化计算效率。
训练策略上，采用短预训练与长继续预训练相结合的方式，提升模型性能。
推理优化方面，利用前缀缓存和KV压缩等技术提高推理效率。
长上下文的需求场景包括文档QA、代码库理解和多轮对话等。
RAG与长上下文模型互补，RAG适合低延迟场景，而长上下文模型在精度上更具优势。
位置编码的扩展方法包括RoPE、YaRN和LongRoPE等，解决了绝对位置编码的局限性。
注意力计算复杂度的优化方法包括线性注意力和状态空间模型等。
稀疏注意力和近似注意力方法如NSA和MInference在推理时提高了效率。
长上下文训练面临样本稀缺问题，通常采用短预训练与合成样本的方式。
推理阶段的挑战包括显存管理和延迟优化，采用分布式KV缓存和前缀缓存等策略。
Agent场景中，长上下文的消耗速率高，需采用分层缓存策略和轨迹压缩技术。

❓

延伸问答

长上下文模型面临哪些工程挑战？

长上下文模型面临计算复杂度、显存限制、位置编码精度崩塌、训练样本稀缺等挑战。

如何优化长上下文模型的注意力计算？

可以通过线性注意力、稀疏注意力和状态空间模型等方法来优化注意力计算的复杂度。

长上下文模型的训练策略是什么？

长上下文模型通常采用短预训练与长继续预训练相结合的策略，以提升模型性能。

长上下文模型的推理优化技术有哪些？

推理优化技术包括前缀缓存、KV压缩等，以提高推理效率。

长上下文模型适合哪些应用场景？

适合的应用场景包括文档问答、代码库理解和多轮对话等。

RoPE和YaRN在位置编码中有什么作用？

RoPE和YaRN用于扩展位置编码，解决绝对位置编码的局限性，提高模型对长上下文的处理能力。

🏷️

继续阅读

Pulumi押注基础设施的下一个十年属于AI代理
Pulumi公司推出新功能，支持“代理基础设施时代”。AI代理已驱动20%的操作，未来可能达到100%。新推出的Pulumi Cloud账户允许代理自助创...
安妮·加扎利：PostgreSQL在AI基础设施中日益重要的角色
PostgreSQL在AI基础设施中的重要性日益增强，尤其通过Supabase等平台。其可靠性和可扩展性使其成为AI应用的理想选择。随着AI产品的增长，工...
使用Kyverno自动化保密容器（CoCo）基础设施
保密容器（CoCo）为不可信环境中的容器工作负载提供安全保障。通过使用Kyverno作为政策引擎，平台团队可以自动化CoCo配置，简化开发者体验。CoCo...
AI 如何揭示传统客户通信基础设施的隐性成本
企业技术预算正在快速变化，AI投资显著增长，但传统通信基础设施成为负担，影响AI效果。许多组织未能更新过时系统，导致效率低下和合规风险增加。现代化通信架构...
保持pgBackRest的开放性、健康性和社区驱动
文章讨论了如何将pt-query-digest风格的慢查询分析应用于PostgreSQL，介绍了使用pg_enhanced_query_logging工具的具体方法。
安全通告：Qt中OpenSSL后端证书加载机制的不可信搜索路径漏洞
Qt的OpenSSL后端证书加载机制存在不可信搜索路径漏洞（CVE-2025-14575），影响Qt 5.0.0至6.5.9及6.6.0至6.8.3和6....