Microsoft AI 推出 SCBench：用于评估大型语言模型中长上下文方法的综合基准

实时互动网 ·

Microsoft AI 推出 SCBench：用于评估大型语言模型中长上下文方法的综合基准

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

长上下文 LLM 在推理时面临计算和内存挑战。研究者推出 SCBench 基准测试，评估 KV 缓存的生成、压缩、检索和加载四个阶段，分析多轮交互中的性能。结果表明，O(n) 方法在多轮场景中表现优异，而 sub-O(n) 方法效果不佳，强调了评估长上下文方法的关键差距。

🎯

关键要点

长上下文 LLM 支持从 128K 到 10M 个 token 的扩展上下文窗口，适用于高级应用。
推理过程中面临计算效率和内存使用的挑战，KV 缓存优化旨在提高多轮交互中的缓存重用率。
现有技术如 PagedAttention 和 RadixAttention 通常仅在单轮场景中评估，忽略多轮应用。
SCBench 基准测试评估 KV 缓存的生成、压缩、检索和加载四个阶段，涉及 12 个任务和多轮、多请求的共享上下文模式。
研究结果显示，O(n) 内存方法在多轮场景中表现优异，而 sub-O(n) 方法效果不佳。
SCBench 深入分析了稀疏效应、任务复杂性和长生成场景中的分布变化等挑战。
基准测试评估了六种开源长上下文 LLM，实验在 NVIDIA A100 GPU 上进行，使用 BFloat16 精度。
测试了八种长上下文解决方案，结果表明 MInference 在检索任务中表现出色，A-shape 和 Tri-shape 在多轮任务中表现良好。
SSM-attention 混合体和门控线性模型在多轮交互中表现不佳，强调了评估长上下文方法的关键差距。
SCBench 从 KV 缓存生命周期的角度评估长上下文方法，为改进 LLM 和架构提供了宝贵的见解。

❓

延伸问答

SCBench 基准测试的主要目的是什么？

SCBench 基准测试旨在评估大型语言模型中长上下文方法的性能，特别是 KV 缓存的生成、压缩、检索和加载四个阶段。

长上下文 LLM 在推理过程中面临哪些挑战？

长上下文 LLM 在推理过程中面临计算效率和内存使用的挑战，尤其是在多轮交互中。

O(n) 和 sub-O(n) 方法在多轮场景中的表现如何？

研究结果显示，O(n) 方法在多轮场景中表现优异，而 sub-O(n) 方法效果不佳。

SCBench 基准测试评估了哪些任务？

SCBench 基准测试评估了 12 个任务，包括字符串和语义检索、多任务处理和全局处理。

哪些技术被用于优化长上下文 LLM 的推理？

用于优化长上下文 LLM 推理的技术包括稀疏注意、线性注意和快速压缩等预填充优化。

SCBench 如何分析 KV 缓存的生命周期？

SCBench 从生成、压缩、检索和加载四个阶段分析 KV 缓存的生命周期，以评估长上下文方法。

🏷️

继续阅读

DeepSeek-V4 技术解析：架构革新与 Coding Agent 后训练优化
DeepSeek-V4技术通过架构创新和后训练优化，显著提升了长上下文处理能力。其混合注意力机制和流形约束超连接提高了效率与稳定性。后训练阶段采用专家培养...
Lovelace在隐秘中崭露头角，推出声称具备1000倍AI调查能力的上下文引擎
安德鲁·摩尔创立了Lovelace AI，推出了企业级上下文引擎Elemental，旨在解决高风险AI项目失败的核心原因。该系统通过预计算和缓存大量信息，...
【公益译文】2026年国际AI安全报告（六）
文章讨论了AI开发和使用中的技术保障措施，主要包括开发安全模型、部署监控和生态系统监测。尽管已有进展，但技术保障仍存在局限，无法完全防止有害行为。提出了对...
ChatGPT 拎包入住云计算一哥，你的下一任好同事可能是 AI
亚马逊云科技发布会强调AI Agent将重塑SaaS行业。新产品Amazon Quick通过整合信息提高工作效率，减少员工在多个系统间的切换。亚马逊与Op...
众测｜邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE
YoooClaw C·ONE是一款新型智能卡片，旨在提升AI助手的使用体验。它可连接手机，整理通知，生成待办事项，并通过语音指令简化操作。用户可长按说话记...
亚马逊在产品页面上推出 AI 语音对话功能
亚马逊推出了新的AI功能“加入聊天”，用户可以实时向卖家提问并获得语音回复，旨在节省顾客时间并提供关键产品信息，模拟与实体店员工的对话体验。用户可通过“收...