vLLM Blog ·

在vLLM上运行高效且准确的AI代理，使用NVIDIA Nemotron 3 Nano

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

NVIDIA推出Nemotron 3 Nano，采用混合Mamba-Transformer MoE架构，支持1M上下文长度，适合高效AI应用。该模型开源，具备出色的编码和推理能力，适用于多行业AI代理开发。

🎯

关键要点

NVIDIA推出Nemotron 3 Nano，采用混合Mamba-Transformer MoE架构。
Nemotron 3 Nano支持1M上下文长度，适合高效AI应用。
该模型开源，具备出色的编码和推理能力。
Nemotron 3 Nano在多个基准测试中表现优异，如SWE Bench Verified和GPQA Diamond。
模型架构为混合专家（MoE），支持最优准确性与最小推理令牌生成。
模型大小为30B，具有3B活跃参数。
支持NVIDIA RTX Pro 6000、DGX Spark、H100和B200等GPU。
通过vLLM实现加速推理，支持BF16和FP8精度。
Nemotron 3 Nano在多个行业的AI代理开发中具有广泛应用潜力。
开发者可以从Hugging Face下载模型权重，进行定制和优化。

❓

延伸问答

Nemotron 3 Nano的架构是什么？

Nemotron 3 Nano采用混合Mamba-Transformer MoE架构。

Nemotron 3 Nano适合哪些应用场景？

Nemotron 3 Nano适用于金融、网络安全、软件开发和零售等多个行业的AI代理开发。

如何开始使用Nemotron 3 Nano进行推理？

可以从Hugging Face下载模型权重，并使用vLLM进行推理。

Nemotron 3 Nano的模型大小和参数数量是多少？

Nemotron 3 Nano的模型大小为30B，具有3B活跃参数。

Nemotron 3 Nano在基准测试中的表现如何？

Nemotron 3 Nano在多个基准测试中表现优异，如SWE Bench Verified和GPQA Diamond。

Nemotron 3 Nano支持哪些GPU？

Nemotron 3 Nano支持NVIDIA RTX Pro 6000、DGX Spark、H100和B200等GPU。

🏷️

标签

AI应用 MoE架构 NVIDIA Nemotron 3 Nano ai nano nemotron vllm 开源

➡️

继续阅读

NVIDIA与LG集团建立AI工厂，推动物理AI、移动性和AI基础设施的发展
NVIDIA与LG集团合作建立AI工厂，推动机器人、自动驾驶和数据中心技术的发展。该工厂将为LG提供加速计算基础设施，支持AI应用的训练和部署，提升制造业...
英国如何通过NVIDIA技术将自主人工智能愿景转化为行动
英国通过NVIDIA技术推动自主人工智能发展，支持本土企业，建立AI基础设施，促进AI云服务和数据中心建设。Isambard-AI超级计算机助力AI研究，...
将最新的Gemini模型带给苹果开发者
苹果全球开发者大会（WWDC）宣布，开发者可以通过Foundation Models框架安全调用云端Gemini模型，提升开发效率。Gemini模型与iO...
利用Genie和AI代理转化太阳能和风能维护报告
Plenitude与Databricks合作，利用AI将太阳能和风能设备的维护PDF报告转化为可搜索的结构化数据。用户可以通过自然语言提问，分析趋势，比较...
Rider 2026.2 EAP 5：为您的AI代理提供代码质量检查功能及更多内容。
Rider 2026.2 EAP 5发布，新增AI代理的代码质量检查功能，通过PostToolUse钩子自动验证代理生成的代码，确保代码质量。同时简化了“...
一种危险的组合”：可能“腐蚀”AI代理工作流程的两个因素
随着AI代理的普及，身份和访问管理（IAM）面临新挑战。传统IAM模型不再适用，需要为每个代理提供独特身份和即时权限以确保安全。HashiCorp的Bou...