💡
原文英文,约1100词,阅读约需4分钟。
📝
内容提要
MAX 25.2更新了无CUDA语言模型,支持多GPU和500多个GenAI模型,提升了性能和部署速度。新特性包括改进的LLM服务、超小容器和Mojo编程,简化了GPU编程,适用于各种AI应用。
🎯
关键要点
- MAX 25.2更新了无CUDA语言模型,支持多GPU和500多个GenAI模型,提升了性能和部署速度。
- 新特性包括改进的LLM服务、超小容器和Mojo编程,简化了GPU编程,适用于各种AI应用。
- 支持NVIDIA H100和H200的多GPU功能,能够运行更大的语言模型。
- 新增500多个预配置的GenAI模型,支持多种架构。
- LLM服务改进,包括缓存感知的批处理调度和在飞行中的批处理。
- 新的超小Docker容器,压缩后仅1.3GB,支持快速部署。
- Mojo编程简化了GPU编程,提供现代语言特性,适合AI研究者和开发者。
- MAX 25.2是高性能AI可及性的重要进展,适用于各种AI应用。
❓
延伸问答
MAX 25.2的主要更新内容是什么?
MAX 25.2更新了无CUDA语言模型,支持多GPU和500多个GenAI模型,提升了性能和部署速度。
如何在多GPU上运行大型语言模型?
可以通过简单的命令在多GPU上运行大型语言模型,例如使用4个GPU运行70B参数模型。
MAX 25.2支持哪些新的GenAI模型?
MAX 25.2新增了500多个预配置的GenAI模型,包括Qwen2、Microsoft Phi和Exaone等。
Mojo编程有什么优势?
Mojo编程简化了GPU编程,提供现代语言特性,适合AI研究者和开发者,能够直接访问NVIDIA GPU。
MAX 25.2如何提高LLM服务的性能?
通过改进的调度、批处理和缓存,MAX 25.2提升了LLM服务的性能,某些基准测试中提高了10%的吞吐量。
MAX 25.2的Docker容器有什么特点?
新的超小Docker容器压缩后仅1.3GB,支持快速部署,适合大型模型的快速上线。
➡️