量子位 ·

SGLang原生支持昇腾，新模型一键拉起无需改代码

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

SGLang原生支持昇腾，简化模型调用，成为行业关注的焦点。活动讨论了推理系统在高并发和长上下文场景下的挑战，并提出了工程解决方案。昇腾与SGLang的合作提升了推理效率和系统优化，增强了模型在金融等领域的应用能力。

🎯

关键要点

SGLang原生支持昇腾，简化模型调用，成为行业关注的焦点。
推理系统面临高并发请求、长上下文窗口等工程问题。
昇腾作为算力平台提升了推理效率和系统优化。
SGLang通过HiCache体系降低显存占用，提高推理稳定性。
Mooncake实现权重更新和模型启动时间的显著压缩。
针对长尾请求问题，SGLang采用全异步执行机制提高训练效率。
昇腾与SGLang的合作实现了模型适配和性能优化。
昇腾在推理系统中已成为主流后端，支持多种模型。
昇腾与SGLang的深度共建推动了AI算力与开源框架的融合。
昇腾的目标是全面拥抱开源，加速生态建设，提升推理系统性能。

❓

延伸问答

SGLang如何支持昇腾平台？

SGLang原生支持昇腾，简化模型调用，允许模型在不改代码的情况下直接运行。

昇腾在推理系统中扮演什么角色？

昇腾已成为主流推理工作流中的后端，支持多种模型并提升推理效率。

SGLang如何解决高并发和长上下文问题？

SGLang通过HiCache体系和全异步执行机制，降低显存占用，提高推理稳定性和效率。

Mooncake在模型启动中有什么优势？

Mooncake显著压缩权重更新和模型启动时间，实现热更新与弹性扩容。

昇腾与SGLang的合作对AI生态有什么影响？

这次合作推动了AI算力与开源框架的融合，加速了昇腾生态建设。

SGLang在金融领域的应用有哪些？

SGLang在金融领域提升了推理效率，满足了低延迟和响应稳定性的需求。

🏷️

继续阅读

安全公告：Qt声明模块中VectorImage组件的QML代码注入漏洞影响Qt
Qt的VectorImage组件存在代码注入漏洞（CVE-2025-14576），影响版本6.8.0至6.8.6及6.9.0至6.10.1。该漏洞允许恶意...
五种强大的Python装饰器，构建整洁的AI代码
本文介绍了五种实用的Python装饰器，旨在提高AI和机器学习代码的整洁性。这些装饰器包括：限制并发请求、结构化日志记录、特征注入、确定性种子设置和开发模...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
2026 年 3 月和 4 月该入手的模型手办
2026年3月和4月的特别作品主要包括《光能使者》系列的光能使者和超级光能使者，以及记录孙悟空和库林修行的龟仙屋，但缺少布尔玛和朗琪，显得不太完整。
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。