vLLM Blog ·

vLLM中的DeepSeek-V3.2-Exp：细粒度稀疏注意力的应用

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

DeepSeek-V3.2-Exp模型现已支持，采用稀疏注意力机制，适用于长文本任务。vLLM集成了新的CUDA内核，优化了性能，用户可通过特定指令进行部署和测试，未来将扩展对更多硬件的支持。

🎯

关键要点

DeepSeek-V3.2-Exp模型现已支持，采用稀疏注意力机制，适用于长文本任务。
vLLM集成了新的CUDA内核，优化了性能，用户可通过特定指令进行部署和测试。
DSA的闪电索引器和稀疏注意力在连续批处理和分页注意力方面存在挑战。
在性能方面，vLLM与DeepGEMM中的闪电索引器CUDA内核集成。
用户可以在16×H100、8×H200或8×B200上运行DeepSeek 3.2模型。
即将推出一键Kubernetes部署，使用NIXL进行PD分解。
新缓存条目和量化方案使得索引器K缓存与MLA K缓存分开。
新计算方法通过掩码处理每个新查询令牌，计算前2048个令牌的相关性。
优化过程中，Top-K可以通过融合内核实现更好的性能。
计划扩展对Hopper和Blackwell以外架构的支持，未来将支持AMD和TPU。
感谢vLLM社区的团队对该模型的支持和贡献。

❓

延伸问答

DeepSeek-V3.2-Exp模型的主要特点是什么？

DeepSeek-V3.2-Exp模型采用稀疏注意力机制，专为长文本任务设计。

如何在vLLM中部署DeepSeek-V3.2-Exp模型？

用户可以通过特定指令在16×H100、8×H200或8×B200上运行DeepSeek 3.2模型。

vLLM的性能优化是如何实现的？

vLLM集成了新的CUDA内核，优化了性能，并与DeepGEMM中的闪电索引器集成。

DeepSeek-V3.2-Exp模型支持哪些硬件？

该模型计划扩展对Hopper、Blackwell、AMD和TPU等硬件的支持。

DeepSeek-V3.2-Exp模型在处理长文本时面临哪些挑战？

模型在连续批处理和分页注意力方面面临挑战，需要分别处理预填充和解码。

未来对DeepSeek-V3.2-Exp模型的计划是什么？

未来将扩展对更多架构的支持，并计划推出一键Kubernetes部署。

🏷️

继续阅读

便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
如何降低AI对话开发成本及部署AI对话开发应用？
AI对话项目在规模化运营后，成本控制成为关键。主要成本包括算力、带宽、服务器和数据迭代。优化路径包括利用成熟平台、模型分级调度、资源优化和建立成本监控体系...
早报｜苹果App Store四成头部应用已支持AI/千问上线肯德基skill/奈雪擦边LABUBU被判赔32万
腾讯客服表示，微信与华为、小米等厂商合作推出A2A助手，用户可通过AI助手发起微信通话或发送消息。荣耀部分机型已支持此功能，确保数据安全与隐私。
KVarN：华为用于KVCache量化的原生vLLM后端
华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持...
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
论独立游戏的起步立项方法论
独立游戏的成功依赖于立项阶段的清晰规划。开发者需关注可发行最小规格、财务回报率和产品定位，明确目标、合理分配资源，避免过度追求完美，以确保项目按时完成。市...