实时互动网 ·

为什么主流大模型的上下文窗口都是128k？| 深度

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

上下文工程是AI领域的新概念，强调大模型的上下文窗口的重要性。目前128k是主流标准，因其在处理长文本时效率高，满足多种应用需求。尽管有向百万上下文扩展的尝试，但技术和成本限制使128k仍为最广泛应用的长度。未来将关注信息利用效率，以实现更智能的AI模型。

🎯

关键要点

上下文工程是AI领域的新概念，强调大模型的上下文窗口的重要性。
128k是主流标准，因其在处理长文本时效率高，满足多种应用需求。
尽管有向百万上下文扩展的尝试，但技术和成本限制使128k仍为最广泛应用的长度。
上下文是大模型研究的核心问题，越大的上下文窗口使模型更聪明、连贯。
Transformer架构的自注意力机制解决了传统RNN模型的上下文窗口局限性。
128k上下文窗口的计算和内存需求大幅增加，给GPU带来挑战。
128k上下文已能满足法律、科研、企业数据分析等多种实际场景的需求。
并非所有应用都需要长上下文，简单任务可用较小的上下文窗口。
长文本上下文能力的提升是模型架构、注意力机制、训练策略等多方面协同创新的结果。
未来的竞争焦点将转向信息利用效率，目标是实现通用人工智能的愿景。

❓

延伸问答

上下文窗口的大小对大模型有什么影响？

上下文窗口越大，模型能记住的内容就越多，从而变得更聪明和连贯。

为什么128k成为主流的上下文窗口标准？

128k在处理长文本时效率高，满足多种应用需求，同时技术和成本限制使其成为最广泛应用的长度。

长上下文窗口的计算和内存需求如何影响GPU？

128k上下文窗口的计算和内存需求大幅增加，可能需要多张GPU并行计算，增加系统复杂性。

哪些技术推动了上下文窗口的扩展？

模型架构的演进、注意力机制的优化以及工程层面的创新共同推动了上下文窗口的扩展。

128k上下文窗口适合哪些应用场景？

128k上下文窗口适合法律、科研、企业数据分析等需要处理长文档的场景。

未来上下文窗口的发展趋势是什么？

未来将关注信息利用效率，目标是实现更智能的AI模型，可能会探索更大的上下文窗口。

🏷️

继续阅读

Lovelace在隐秘中崭露头角，推出声称具备1000倍AI调查能力的上下文引擎
安德鲁·摩尔创立了Lovelace AI，推出了企业级上下文引擎Elemental，旨在解决高风险AI项目失败的核心原因。该系统通过预计算和缓存大量信息，...
AI真能搞钱了！这家公司把大模型玩成闭环赚钱机器
零犀科技通过自研因果大模型，专注于提升企业销售业绩，实现规模盈利与正现金流。其RaaS模式强调结果导向，帮助客户直接获得业务增量。后训练机制提升了AI的决...
Google Cloud Introduces Agents CLI to Streamline AI Agent Development Lifecycle
Google Cloud has introduced Agents CLI within its Agent Platform, aiming to s...
罗技推出一款结合模拟和机械开关的键盘
罗技推出G512 X键盘，结合模拟和机械开关，用户可自由组合，支持多达39种开关和两种触发点，适合快速输入。该键盘有75键和98键两种配置，售价分别为17...
埃隆·马斯克与山姆·阿尔特曼关于OpenAI未来的法律斗争
埃隆·马斯克与山姆·阿尔特曼之间的法律斗争即将开始，涉及OpenAI的未来。马斯克指控OpenAI偏离了最初使命，追求利润，并要求解除阿尔特曼和布罗克曼的...
SAS将其分析引擎开放给Claude、Copilot及任何AI代理，使用Viya MCP服务器
SAS公司在AI时代专注于提供可信的分析和决策软件，强调数据治理的重要性。新推出的Viya MCP服务器允许外部AI代理调用其模型，同时确保数据治理。SA...