Hugging Face 推出 NVIDIA NIM 支持的推理即服务

Hugging Face 推出 NVIDIA NIM 支持的推理即服务

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

Hugging Face宣布推出由NVIDIA NIM提供支持的推理即服务功能,开发人员可通过该服务快速部署大型语言模型,并在生产环境中使用。该服务在NVIDIA DGX Cloud上运行,提供易于访问的计算资源。Hugging Face还与NVIDIA合作,将NVIDIA TensorRT-LLM库集成到其文本生成推理框架中,以提高AI推理性能和可访问性。

🎯

关键要点

  • Hugging Face推出了由NVIDIA NIM支持的推理即服务功能,方便开发者快速部署大型语言模型。
  • 该服务允许开发者快速原型开发开源AI模型,并在生产环境中使用。
  • 推理即服务在NVIDIA DGX Cloud上运行,提供优化的计算资源,支持AI开发的各个阶段。
  • 用户需访问企业Hub组织并使用细粒度的身份验证令牌来使用该服务。
  • 目前服务仅支持chat.completions.create和models.list API,Hugging Face正在扩展支持更多模型。
  • 使用Hugging Face推理即服务的费用基于每个请求的计算时间,使用NVIDIA H100 Tensor Core GPU计费。
  • Hugging Face与NVIDIA合作,将NVIDIA TensorRT-LLM库集成到文本生成推理框架中,以提高推理性能和可访问性。
  • Hugging Face还提供在DGX Cloud上进行AI训练的服务。
  • Hugging Face CEO Clem Delangue表示,Hugging Face正在成为AI计算的门户。
  • Kaggle大师Rohan Paul提到可以使用NVIDIA DGX Cloud的加速计算平台进行推理服务,代码与OpenAI API完全兼容。
  • 在SIGGRAPH上,NVIDIA介绍了生成AI模型和NIM微服务,以加速开发者构建高度准确的虚拟世界的能力。
➡️

继续阅读