💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

NVIDIA 发布了 Llama Nemotron Nano 4B,这是一个专注于科学任务和编程的开源推理模型,具有 40 亿个参数,推理吞吐量提高 50%,支持长文档和多轮推理,适合低功耗设备,适用于隐私和成本敏感的应用。

🎯

关键要点

  • NVIDIA 发布了 Llama Nemotron Nano 4B,一个专注于科学任务和编程的开源推理模型。
  • 该模型包含 40 亿个参数,推理吞吐量提高 50%,适合低功耗设备。
  • Llama Nemotron Nano 4B 旨在支持长文档和多轮推理,适合边缘部署。
  • 模型基于 Llama 3.1 架构,采用高密度、仅解码器的 Transformer 设计。
  • 通过多阶段监督微调和奖励感知偏好优化 (RPO) 进行强化学习优化。
  • 在单轮和多轮推理任务中表现出色,支持最多 128,000 个 token 的上下文窗口。
  • 该模型经过优化,可在 NVIDIA Jetson 平台和 NVIDIA RTX GPU 上高效运行。
  • 允许商业使用,模型通过 Hugging Face 提供,符合 NVIDIA 开放模型许可证。
  • Nemotron Nano 4B 代表了 NVIDIA 在可扩展、实用的 AI 模型方面的持续投入。
➡️

继续阅读