MiniMax发布M1：一款用于长上下文推理和软件任务的4560亿混合注意力模型

InfoQ ·

MiniMax发布M1：一款用于长上下文推理和软件任务的4560亿混合注意力模型

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

MiniMax推出了MiniMax-M1，这是一个具有4560亿参数的开放权重语言模型，支持长上下文推理和工具使用，采用高效的“闪电注意力”机制。该模型在长上下文任务和软件工程方面表现优异，尽管用户反映其在实际应用中的局限性，但仍被视为开放权重模型的佼佼者。

🎯

关键要点

MiniMax推出了MiniMax-M1，这是一个开放权重语言模型，具有4560亿参数，支持长上下文推理和工具使用。
MiniMax-M1采用混合专家架构和新的“闪电注意力”机制，计算效率高，支持最长1百万个token的上下文。
该模型在长上下文任务和软件工程方面表现优异，尤其在数学问题解决上也有良好表现。
MiniMax-M1有两个版本可供选择，使用自定义的强化学习评估方法，并引入了CISPO算法以提高稳定性和性能。
在基准测试中，MiniMax-M1-80K在开放权重模型中排名靠前，尤其在长上下文任务和软件工程方面表现突出。
用户对MiniMax-M1的能力表示赞赏，但也指出了实际应用中的局限性，特别是在速度和可用性方面。
MiniMax-M1支持结构化函数调用，适合用于代理框架，并通过HuggingFace提供40K和80K两个版本。
团队推荐使用vLLM进行部署，以优化服务、内存管理和批处理性能，同时开发者可以通过MiniMax MCP Server进行实验。

❓

延伸问答

MiniMax-M1的主要特点是什么？

MiniMax-M1是一个具有4560亿参数的开放权重语言模型，支持长上下文推理和工具使用，采用高效的“闪电注意力”机制。

MiniMax-M1在长上下文任务中的表现如何？

MiniMax-M1在长上下文任务中表现优异，尤其在基准测试中排名靠前，OpenAI-MRCR和LongBench-v2的得分分别为73.4%和61.5%。

MiniMax-M1的“闪电注意力”机制有什么优势？

“闪电注意力”机制提高了计算效率，测试时仅需25%的FLOPs，相比DeepSeek R1在100K token序列上显著减少计算量。

MiniMax-M1的用户反馈如何？

用户对MiniMax-M1的能力表示赞赏，但也指出在实际应用中存在速度和可用性方面的局限性。

MiniMax-M1适合哪些应用场景？

MiniMax-M1适合长上下文推理、软件工程和数学问题解决等应用场景，并支持结构化函数调用。

如何部署MiniMax-M1模型？

推荐使用vLLM进行部署，以优化服务、内存管理和批处理性能，开发者还可以通过MiniMax MCP Server进行实验。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
Superpowers 为什么能执行长任务且确保交付质量？
Superpowers通过明确需求沟通和任务拆分，优化了AI执行长任务的流程。采用头脑风暴、计划撰写和计划执行的步骤，确保高质量输出。子代理驱动开发模式使...
构建无服务器Kiro调度平台：用Kiro CLI + EventBridge + ECS Fargate实现定时AI任务
Kiro Job Scheduler是一个基于AWS无服务器架构的AI任务调度平台，允许用户通过Web界面配置定时AI任务。用户可以创建自定义Agent、...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
OpenClaw v2026.6.1：Windows原生节点、支持MiniMax M3
OpenClaw 2026.6.1版本发布，支持Windows原生节点，简化使用流程。新增Agent技能工坊，允许Agent自学修复问题并存储技能。工作板...