量子位 ·

智谱公布“降智”的秘密：Scaling不可避免的痛

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

智谱发布技术博客，讨论GLM-5系列模型在高负载下出现的乱码和复读现象。团队发现问题源于推理状态管理和KV Cache的竞态，提出在线异常监控策略和KV Cache分层存储方案，显著提升系统处理能力。未来，维护推理基础设施的输出质量将至关重要。

🎯

关键要点

智谱发布技术博客，讨论GLM-5系列模型在高负载下出现的乱码和复读现象。
团队发现问题源于推理状态管理和KV Cache的竞态，导致异常现象在高负载下复现。
提出在线异常监控策略，当spec_accept_length低于1.4且生成长度超过128 token时，系统主动中止生成。
引入更严格的时序约束，确保KV Cache写入不会跨越内存复用边界，修复后异常输出发生率显著下降。
设计KV Cache分层存储方案，降低每个GPU的内存占用，提升系统在Coding Agent场景下的处理能力。
智谱强调未来维护推理基础设施的输出质量将至关重要，需有等量级的系统工程支撑。

❓

延伸问答

GLM-5系列模型在高负载下出现了哪些异常现象？

在高负载下，GLM-5系列模型出现了乱码、复读和罕见字符生成等异常现象。

智谱团队是如何发现异常现象的根本原因的？

团队通过本地回放用户反馈和调整系统负载，发现异常现象源于推理状态管理和KV Cache的竞态。

智谱提出了哪些策略来监控和修复异常？

智谱提出了在线异常监控策略和KV Cache分层存储方案，以提升系统处理能力和降低异常输出。

KV Cache的竞态问题是如何影响模型性能的？

KV Cache的竞态问题导致了请求生命周期与缓存回收时序的不一致，从而引发了异常输出。

LayerSplit方案的设计目的是什么？

LayerSplit方案旨在降低每个GPU的内存占用，并提升系统在高并发下的处理能力。

未来维护推理基础设施的输出质量有多重要？

维护推理基础设施的输出质量至关重要，尤其是在高并发和长上下文的Coding Agent场景中。

🏷️

继续阅读

今年最值得升级的生产力工具，可能是一整张 AI 工位
文章讨论了在AI工具普及背景下，如何有效利用这些工具提升工作效率。推荐使用Gemini和Kimi进行信息搜索，飞书与Obsidian进行知识管理，以及Pl...
mingling - 基于过程宏的命令行框架
我开发了一个命令行框架mingling，利用过程宏减少样板代码，提高命令行开发效率。该框架已在crates.io发布，版本为0.1.9，欢迎大家讨论和使用。
Ubuntu 计划为所有文本字段添加 AI 语音输入功能
Ubuntu 26.10 将推出语音输入功能，用户可以通过说话代替打字。该功能由 AI 语言解析模型支持，旨在提升可访问性和便利性。此外，Canonica...
Modulate 为企业用户扩展 Velma 平台，引入原生语音实时对话智能
Modulate于2026年6月3日发布了Velma模型，允许开发者实时理解语音对话中的情绪和意图。该API超越传统语音转文本，提供实时监控和分析，帮助企...
规模化架构：如何将视频会议从单服务器扩展到高可用系统
视频会议的扩展面临挑战，需分三个阶段进行架构设计：单节点阶段适合初期验证，水平扩展阶段需分离媒体处理与编排，以确保高可用性并消除单点故障。通过智能放置和自...
现代版掩耳盗铃：Instagram AI漏洞并未被修复只是从前端隐藏界面且被黑客继续利用
Meta旗下的Instagram存在AI账户恢复助手漏洞，黑客可通过该助手重置密码和修改邮箱，导致多个账户被盗。尽管Meta声称已修复漏洞，但实际上只是隐...