量子位 ·

DeepSeek研究员1200行代码复刻vLLM，H800硬件实测性能反超原版

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

DeepSeek研究员俞星凯用不到1200行代码复刻了vLLM，命名为Nano-vLLM，具备快速离线推理和良好的可读性。在H800硬件上，Nano-vLLM的性能超越原版，展现出高效性和简洁性。

🎯

关键要点

DeepSeek研究员俞星凯用不到1200行代码复刻了vLLM，命名为Nano-vLLM。
Nano-vLLM具备快速离线推理和良好的可读性。
在H800硬件上，Nano-vLLM的性能超越原版vLLM。
Nano-vLLM的代码库基于不到1200行Python代码，简洁干净。
Nano-vLLM包含前缀缓存、Torch compilation、CUDA graph等优化套件。
在RTX 4070硬件上，vLLM略微领先于Nano-vLLM。
在H800硬件上，Nano-vLLM的吞吐量达到6731.42 tokens/s，超越vLLM的5916.89 tokens/s。
vLLM是一个高性能框架，专为LLM推理与部署优化。
vLLM采用PagedAttention算法，有效管理KV缓存，减少内存浪费。
vLLM在吞吐量上比FasterTransformer和Orca等系统提升2-4倍。
vLLM支持多种模型和解码算法，兼容多种硬件平台。
DeepSeek的Nano-vLLM在性能上与vLLM相媲美，但代码量大幅减少。

❓

延伸问答

Nano-vLLM的主要特点是什么？

Nano-vLLM具备快速离线推理、良好的可读性和包含前缀缓存、Torch compilation、CUDA graph等优化套件。

Nano-vLLM在H800硬件上的性能如何？

在H800硬件上，Nano-vLLM的吞吐量达到6731.42 tokens/s，超越了vLLM的5916.89 tokens/s。

Nano-vLLM与vLLM的代码量相比如何？

Nano-vLLM的代码库基于不到1200行Python代码，而vLLM的引擎由8500行Python代码和2000行C++/CUDA代码构成。

vLLM的PagedAttention算法有什么优势？

PagedAttention算法允许将KV缓存存储在非连续内存空间中，有效管理内存，减少碎片化，提升吞吐量。

Nano-vLLM的开发者是谁？

Nano-vLLM的开发者是DeepSeek研究员俞星凯。

vLLM的主要应用场景是什么？

vLLM主要用于LLM推理与部署，支持多种模型和解码算法，兼容多种硬件平台。

🏷️

继续阅读

阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
KVarN：华为用于KVCache量化的原生vLLM后端
华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持...