💡
原文英文,约800词,阅读约需3分钟。
📝
内容提要
MAX 25.1发布,增强了AI开发工具,优化了Agentic和LLM工作流程,推出支持GPU编程和离线批量推理的MAX Builds平台,强调社区驱动开发与持续创新。
🎯
关键要点
- 发布MAX 25.1,显著提升AI开发工具,优化Agentic和LLM工作流程。
- 推出新的夜间发布模型,包含新的GPU编程接口。
- 推出MAX Builds平台,作为GenAI开发的综合中心。
- MAX Builds旨在使AI开发对各级开发者更易于访问和高效。
- MAX 25.1增强了Agent和RAG能力,提供新的GPU加速mpnet2模型。
- 支持OpenAI兼容的函数调用API,确保LLM生成的响应符合API规范。
- 实现了分页注意力和前缀缓存的性能提升,提升了令牌生成性能和内存效率。
- 支持离线批量推理,提升LLM工作流的性能。
- MAX 25.1引入新的自定义操作API,支持在CPU或GPU上扩展MAX引擎。
- 转向夜间优先模型,强调持续创新和社区驱动开发。
- MAX GitHub仓库、发布包和Docker镜像默认使用夜间构建。
- MAX 25.1为2025年开启了激动人心的开端,提供成功所需的工具和基础设施。
❓
延伸问答
MAX 25.1的主要改进是什么?
MAX 25.1显著提升了AI开发工具,优化了Agentic和LLM工作流程,并引入了新的GPU编程接口和MAX Builds平台。
什么是MAX Builds平台?
MAX Builds是一个综合中心,提供GenAI模型、应用配方和社区驱动的包,旨在使AI开发更易于访问和高效。
MAX 25.1如何支持GPU编程?
MAX 25.1引入了新的Custom Ops API,允许开发者使用Mojo在CPU或GPU上扩展MAX引擎,提供完全的可组合性和可扩展性。
MAX 25.1的离线批量推理有什么优势?
离线批量推理通过将请求分组处理,减少HTTP请求的延迟,提升性能,较小批量作业的吞吐量提高了12%。
MAX 25.1如何提升LLM工作流的性能?
通过支持分页注意力和前缀缓存,MAX 25.1提高了令牌生成性能和内存效率,允许更长的上下文长度。
MAX 25.1的夜间发布模型有什么特点?
夜间发布模型强调持续创新,新的功能和模型会首先在夜间版本中发布,允许社区实时反馈和参与开发。
➡️