💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
Hugging Face宣布推出由NVIDIA NIM提供支持的推理即服务功能,开发人员可通过该服务快速部署大型语言模型,并在生产环境中使用。该服务在NVIDIA DGX Cloud上运行,提供易于访问的计算资源。Hugging Face还与NVIDIA合作,将NVIDIA TensorRT-LLM库集成到其文本生成推理框架中,以提高AI推理性能和可访问性。
🎯
关键要点
- Hugging Face推出了由NVIDIA NIM支持的推理即服务功能,方便开发者快速部署大型语言模型。
- 该服务允许开发者快速原型开发开源AI模型,并在生产环境中使用。
- 推理即服务在NVIDIA DGX Cloud上运行,提供优化的计算资源,支持AI开发的各个阶段。
- 用户需访问企业Hub组织并使用细粒度的身份验证令牌来使用该服务。
- 目前服务仅支持chat.completions.create和models.list API,Hugging Face正在扩展支持更多模型。
- 使用Hugging Face推理即服务的费用基于每个请求的计算时间,使用NVIDIA H100 Tensor Core GPU计费。
- Hugging Face与NVIDIA合作,将NVIDIA TensorRT-LLM库集成到文本生成推理框架中,以提高推理性能和可访问性。
- Hugging Face还提供在DGX Cloud上进行AI训练的服务。
- Hugging Face CEO Clem Delangue表示,Hugging Face正在成为AI计算的门户。
- Kaggle大师Rohan Paul提到可以使用NVIDIA DGX Cloud的加速计算平台进行推理服务,代码与OpenAI API完全兼容。
- 在SIGGRAPH上,NVIDIA介绍了生成AI模型和NIM微服务,以加速开发者构建高度准确的虚拟世界的能力。
➡️