内容提要
Hugging Face宣布推出由NVIDIA NIM提供支持的推理即服务功能,开发人员可通过该服务快速部署大型语言模型,并在生产环境中使用。该服务在NVIDIA DGX Cloud上运行,提供易于访问的计算资源。Hugging Face还与NVIDIA合作,将NVIDIA TensorRT-LLM库集成到其文本生成推理框架中,以提高AI推理性能和可访问性。
关键要点
-
Hugging Face推出了由NVIDIA NIM支持的推理即服务功能,方便开发者快速部署大型语言模型。
-
该服务允许开发者快速原型开发开源AI模型,并在生产环境中使用。
-
推理即服务在NVIDIA DGX Cloud上运行,提供优化的计算资源,支持AI开发的各个阶段。
-
用户需访问企业Hub组织并使用细粒度的身份验证令牌来使用该服务。
-
目前服务仅支持chat.completions.create和models.list API,Hugging Face正在扩展支持更多模型。
-
使用Hugging Face推理即服务的费用基于每个请求的计算时间,使用NVIDIA H100 Tensor Core GPU计费。
-
Hugging Face与NVIDIA合作,将NVIDIA TensorRT-LLM库集成到文本生成推理框架中,以提高推理性能和可访问性。
-
Hugging Face还提供在DGX Cloud上进行AI训练的服务。
-
Hugging Face CEO Clem Delangue表示,Hugging Face正在成为AI计算的门户。
-
Kaggle大师Rohan Paul提到可以使用NVIDIA DGX Cloud的加速计算平台进行推理服务,代码与OpenAI API完全兼容。
-
在SIGGRAPH上,NVIDIA介绍了生成AI模型和NIM微服务,以加速开发者构建高度准确的虚拟世界的能力。
延伸问答
Hugging Face的推理即服务有什么特点?
Hugging Face的推理即服务允许开发者快速部署大型语言模型,提供优化的计算资源,并在NVIDIA DGX Cloud上运行。
如何使用Hugging Face的推理即服务?
用户需访问企业Hub组织并使用细粒度的身份验证令牌来使用该服务。
Hugging Face推理即服务的费用是如何计算的?
费用基于每个请求的计算时间,使用NVIDIA H100 Tensor Core GPU计费。
目前Hugging Face推理即服务支持哪些API?
目前服务仅支持chat.completions.create和models.list API。
Hugging Face与NVIDIA的合作有什么重要性?
Hugging Face与NVIDIA合作集成了NVIDIA TensorRT-LLM库,以提高推理性能和可访问性。
Hugging Face推理即服务适合哪些开发阶段?
该服务支持AI开发的各个阶段,从原型开发到生产部署。