Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

法国独角兽Mistral AI发布了数学推理模型Mathstral和代码生成模型Codestral Mamba。Mathstral在基准测试中表现优异,Codestral Mamba在HumanEval测试中胜出。模型可免费使用,处理256,000个token的输入。

🎯

关键要点

  • 法国独角兽Mistral AI发布了数学推理模型Mathstral和代码生成模型Codestral Mamba。
  • Mathstral专注于复杂的数学推理,基于Mistral 7B构建,支持32k上下文窗口。
  • Mathstral在MATH数据集上取得56.6%的通过率,优于Minerva 540B。
  • Codestral Mamba是用于代码生成的模型,具有70多亿参数,遵循Apache 2.0开源协议。
  • Mamba模型具有线性时间推理优势,能够处理无限长度的序列。
  • Codestral Mamba在HumanEval测试中表现优于其他开源模型。
  • 两个模型均可免费使用,Mathstral和Codestral Mamba的模型权重已在HuggingFace上发布。
➡️

继续阅读