Modular Blog ·

模块化：MAX 25.1 - 介绍MAX Builds

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

MAX 25.1发布，增强了AI开发工具，优化了Agentic和LLM工作流程，推出支持GPU编程和离线批量推理的MAX Builds平台，强调社区驱动开发与持续创新。

🎯

关键要点

发布MAX 25.1，显著提升AI开发工具，优化Agentic和LLM工作流程。
推出新的夜间发布模型，包含新的GPU编程接口。
推出MAX Builds平台，作为GenAI开发的综合中心。
MAX Builds旨在使AI开发对各级开发者更易于访问和高效。
MAX 25.1增强了Agent和RAG能力，提供新的GPU加速mpnet2模型。
支持OpenAI兼容的函数调用API，确保LLM生成的响应符合API规范。
实现了分页注意力和前缀缓存的性能提升，提升了令牌生成性能和内存效率。
支持离线批量推理，提升LLM工作流的性能。
MAX 25.1引入新的自定义操作API，支持在CPU或GPU上扩展MAX引擎。
转向夜间优先模型，强调持续创新和社区驱动开发。
MAX GitHub仓库、发布包和Docker镜像默认使用夜间构建。
MAX 25.1为2025年开启了激动人心的开端，提供成功所需的工具和基础设施。

❓

延伸问答

MAX 25.1的主要改进是什么？

MAX 25.1显著提升了AI开发工具，优化了Agentic和LLM工作流程，并引入了新的GPU编程接口和MAX Builds平台。

什么是MAX Builds平台？

MAX Builds是一个综合中心，提供GenAI模型、应用配方和社区驱动的包，旨在使AI开发更易于访问和高效。

MAX 25.1如何支持GPU编程？

MAX 25.1引入了新的Custom Ops API，允许开发者使用Mojo在CPU或GPU上扩展MAX引擎，提供完全的可组合性和可扩展性。

MAX 25.1的离线批量推理有什么优势？

离线批量推理通过将请求分组处理，减少HTTP请求的延迟，提升性能，较小批量作业的吞吐量提高了12%。

MAX 25.1如何提升LLM工作流的性能？

通过支持分页注意力和前缀缓存，MAX 25.1提高了令牌生成性能和内存效率，允许更长的上下文长度。

MAX 25.1的夜间发布模型有什么特点？

夜间发布模型强调持续创新，新的功能和模型会首先在夜间版本中发布，允许社区实时反馈和参与开发。

🏷️

继续阅读

Jobin Augustine: Troubleshooting logical replication delay made easy
Percona Operator for PostgreSQL 2.9.0 发布，默认支持 PostgreSQL 18，新增 PVC 快照备份和 LDAP 支持等功能。
Troubleshooting logical replication delay made easy
Percona Operator for PostgreSQL 2.9.0 发布，默认支持 PostgreSQL 18，新增 PVC 快照备份和 LDAP 支持等功能。
钉钉“听劝”推出充电宝版录音卡，可连续录音180小时
钉钉推出DingTalk A1 Pro，售价1299元，专为商务人士设计。该设备配备2980mAh电池，支持180小时录音和反向充电，搭载专业麦克风，能在...
移远通信发布新一代汽车数字钥匙整体解决方案
移远通信发布新一代汽车数字钥匙解决方案，采用BLE 6.0、UWB和NFC三模融合技术，提升人车交互。该方案支持全球主流协议，兼容各大手机钱包，增强车辆安全与便利性。
莱维特LCT 440 PURE stereo pair立体声组面向全球发售
莱维特推出LCT 440 PURE立体声组，配有军用级运输箱和多种配件，适合录制吉他、鼓组和人声，提供高音质。该产品采用自动化测量与配对，确保麦克风高度匹...
闻泰科技一年巨亏87.48亿元；OPPO整合一加与realme成立子系列事业部；三星电子第一季度营业利润同比增超7倍
闻泰科技预计2025年亏损87.48亿元，主要因剥离受限业务和投资损失。OPPO整合一加与realme成立新事业部。三星电子第一季度营业利润同比增超7倍，...