量子位 ·

MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

💡 原文中文，约5500字，阅读约需13分钟。

📝

内容提要

MiniMax M3模型引发热议，提升了周用量限额并保持老用户设定。M3在长上下文、多模态和编程能力上表现突出，超越了GPT-5.5和Gemini 3.1 Pro，效率显著提高。M3成功复现多篇论文，展示了其强大的自主学习和实验能力。同时推出的MiniMax Code进一步增强了M3的功能。整体来看，M3在开源模型中具备竞争力，性价比高，成为开发者的新选择。

🎯

关键要点

MiniMax M3模型上线后，引发了关于新计费方式的热议，官方提高了周用量限额，并保持了老用户的设定。
M3在长上下文、多模态和编程能力上表现突出，超越了GPT-5.5和Gemini 3.1 Pro，效率显著提高。
M3成功复现多篇论文，展示了其强大的自主学习和实验能力，能够独立完成复杂任务。
MiniMax Code的推出进一步增强了M3的功能，专为M3设计并与其一起训练。
M3在SWE-Bench Pro上取得59%的成绩，显示出其在开源模型中的竞争力和高性价比。
M3采用新型稀疏注意力机制MSA，提升了硬件利用率，优化了长上下文处理能力。
在多模态训练方面，M3从预训练开始就进行图文混合训练，提升了模型性能。
M3的表现使其成为开发者的新选择，尤其是在长程Coding任务和复杂文档处理方面。

🔎

延伸解读

模型能力的突破

MiniMax M3在长上下文、多模态和编程能力上表现出色，成为开源模型中的佼佼者。其在SWE-Bench Pro上取得59%的成绩，超越了许多闭源模型，显示出其强大的自主学习和实验能力。这一突破为开发者提供了更多选择，尤其是在复杂任务处理上。

新计费方式的影响

MiniMax M3的上线伴随着新的Token Plan计费方式，引发了用户的广泛讨论。虽然官方提高了周用量限额并保持老用户的设定，但价格争议仍然存在。开发者在选择模型时，除了关注性能外，也需考虑成本因素，以确保性价比。

多模态训练的优势

M3在多模态训练方面的创新，采用图文混合训练方法，提升了模型的整体性能。这种方法使得文本和视觉信息能够在同一框架下处理，增强了模型在复杂文档处理和长程Coding任务中的表现。开发者在选择模型时，应关注其多模态能力，以满足不同应用场景的需求。

❓

延伸问答

MiniMax M3的主要特点是什么？

MiniMax M3在长上下文、多模态和编程能力上表现突出，超越了GPT-5.5和Gemini 3.1 Pro，效率显著提高。

MiniMax M3如何提升硬件利用率？

M3采用新型稀疏注意力机制MSA，通过优化长上下文处理能力，提升了硬件利用率。

MiniMax Code的推出对M3有什么影响？

MiniMax Code专为M3设计，增强了其功能，使得M3在编程任务中表现更佳。

M3在复现论文方面的表现如何？

M3成功复现多篇论文，展示了其强大的自主学习和实验能力，能够独立完成复杂任务。

MiniMax M3的性价比如何？

M3在开源模型中具备竞争力，性价比高，成为开发者的新选择。

M3在多模态训练方面有什么创新？

M3从预训练开始就进行图文混合训练，提升了模型性能，优化了多模态处理能力。

🏷️