MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

MiniMax推出了新模型MiniMax-01,支持400万token的超长上下文,性能接近DeepSeek-v3和GPT-4o。该模型采用Lightning Attention架构,显著提升处理效率。在多个基准测试中,MiniMax-Text-01在长上下文理解方面表现突出,而MiniMax-VL-01则专注于多模态任务,展现强大处理能力。该模型已在Hailuo AI上免费试用。

🎯

关键要点

  • MiniMax推出了新模型MiniMax-01,支持400万token的超长上下文。
  • MiniMax-01包含两个模型:MiniMax-Text-01和MiniMax-VL-01。
  • MiniMax-Text-01在长上下文理解方面表现突出,性能接近DeepSeek-v3和GPT-4o。
  • MiniMax-01采用Lightning Attention架构,显著提升处理效率。
  • 模型在Hailuo AI上免费试用,API价格为输入每百万token0.2美元,输出每百万token1.1美元。
  • MiniMax-Text-01参数为456B,推理时可扩展到400万token上下文。
  • 在Core Academic Benchmark中,MiniMax-Text-01在GPQA Diamond上获得54.4分,超越GPT-4o。
  • MiniMax-VL-01采用ViT-MLP-LLM框架,具有动态分辨率功能,适用于多模态任务。
  • 网友们已开始测试MiniMax-01,表现令人印象深刻。

延伸问答

MiniMax-01模型的主要特点是什么?

MiniMax-01模型支持400万token的超长上下文,包含MiniMax-Text-01和MiniMax-VL-01两个子模型,采用Lightning Attention架构,显著提升处理效率。

MiniMax-Text-01在长上下文理解方面的表现如何?

MiniMax-Text-01在长上下文理解方面表现突出,在Core Academic Benchmark中获得54.4分,超越GPT-4o。

MiniMax-01的API价格是多少?

MiniMax-01的API价格为输入每百万token0.2美元,输出每百万token1.1美元。

MiniMax-VL-01模型的架构特点是什么?

MiniMax-VL-01采用ViT-MLP-LLM框架,具有动态分辨率功能,能够根据预设网格调整输入图像的大小。

MiniMax-01模型的训练数据来源是什么?

MiniMax-VL-01的训练数据涵盖标题、描述和指令,ViT在6.94亿图像-标题对上进行训练。

MiniMax-01模型的使用场景有哪些?

MiniMax-01模型适用于长上下文处理和多模态任务,特别是Agent相关应用。

➡️

继续阅读