最强数学大模型易主!阿里千问新模型成绩超GPT-4o,网友:这才是真“草莓”

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

阿里千问团队发布的Qwen2-Math模型超越了GPT-4o和Claude 3.5等闭源模型,能解决竞赛级试题。该模型有三个版本,其中72B版本在MATH数据集上比GPT-4o多得了7分。Qwen2-Math还挑战了中文数据集CMATH和高考试题,成绩明显提升。千问团队还微调了Instruct版本,取得了70%的准确率。Qwen2-Math能解决一些简单的竞赛级试题,成绩超过了先进模型Gemini 1.5 PRo等。目前主要针对英文场景,中英双语版本将在之后推出。

🎯

关键要点

  • 阿里千问团队发布的Qwen2-Math模型超越了多个闭源模型,包括GPT-4o和Claude 3.5。
  • Qwen2-Math有三个版本:72B、7B和1.5B,其中72B版本在MATH数据集上比GPT-4o多得7分。
  • 该模型能够解决简单的竞赛级试题,成绩超过了Gemini 1.5 PRo等先进模型。
  • Qwen2-Math在中文数据集CMATH和高考试题上也取得了显著提升。
  • 千问团队微调了Instruct版本,取得了70%的准确率,表现优于70B的Llama 3.1。
  • Qwen2-Math的训练数据包括高质量的数学文本、书籍、代码和考试题目。
  • 为了确保测试成绩的准确性,团队去除了训练数据与测试集的重叠部分。
  • Qwen2-Math-72B-Instruct在AIME 24的30道题中答对11道,超越了其他先进模型。
  • 目前Qwen2-Math主要针对英文场景,未来将推出中英双语版本。
  • 72B版本的商业使用需申请许可,若月活跃用户超过1亿。
➡️

继续阅读