量子位 ·

最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

阿里千问团队发布的Qwen2-Math模型超越了GPT-4o和Claude 3.5等闭源模型，能解决竞赛级试题。该模型有三个版本，其中72B版本在MATH数据集上比GPT-4o多得了7分。Qwen2-Math还挑战了中文数据集CMATH和高考试题，成绩明显提升。千问团队还微调了Instruct版本，取得了70%的准确率。Qwen2-Math能解决一些简单的竞赛级试题，成绩超过了先进模型Gemini 1.5 PRo等。目前主要针对英文场景，中英双语版本将在之后推出。

🎯

关键要点

阿里千问团队发布的Qwen2-Math模型超越了多个闭源模型，包括GPT-4o和Claude 3.5。
Qwen2-Math有三个版本：72B、7B和1.5B，其中72B版本在MATH数据集上比GPT-4o多得7分。
该模型能够解决简单的竞赛级试题，成绩超过了Gemini 1.5 PRo等先进模型。
Qwen2-Math在中文数据集CMATH和高考试题上也取得了显著提升。
千问团队微调了Instruct版本，取得了70%的准确率，表现优于70B的Llama 3.1。
Qwen2-Math的训练数据包括高质量的数学文本、书籍、代码和考试题目。
为了确保测试成绩的准确性，团队去除了训练数据与测试集的重叠部分。
Qwen2-Math-72B-Instruct在AIME 24的30道题中答对11道，超越了其他先进模型。
目前Qwen2-Math主要针对英文场景，未来将推出中英双语版本。
72B版本的商业使用需申请许可，若月活跃用户超过1亿。

❓

延伸问答

Qwen2-Math模型的主要优势是什么？

Qwen2-Math模型超越了多个闭源模型，包括GPT-4o和Claude 3.5，能够解决竞赛级试题。

Qwen2-Math模型有多少个版本？

Qwen2-Math模型有三个版本：72B、7B和1.5B。

Qwen2-Math在中文数据集上的表现如何？

Qwen2-Math在中文数据集CMATH和高考试题上取得了显著提升，1.5B版本的成绩超过了70B的Llama 3.1。

Qwen2-Math的训练数据包含哪些内容？

Qwen2-Math的训练数据包括高质量的数学文本、书籍、代码和考试题目。

Qwen2-Math的Instruct版本有什么特点？

Qwen2-Math的Instruct版本经过微调，取得了70%的准确率，表现优于70B的Llama 3.1。

Qwen2-Math模型的商业使用有什么限制？

72B版本的商业使用需申请许可，若月活跃用户超过1亿，则需要向千问团队申请许可。

🏷️