小红花·文摘

阿里千问团队发布的Qwen2-Math模型超越了GPT-4o和Claude 3.5等闭源模型，能解决竞赛级试题。该模型有三个版本，其中72B版本在MATH数据集上比GPT-4o多得了7分。Qwen2-Math还挑战了中文数据集CMATH和高考试题，成绩明显提升。千问团队还微调了Instruct版本，取得了70%的准确率。Qwen2-Math能解决一些简单的竞赛级试题，成绩超过了先进模型Gemini 1.5 PRo等。目前主要针对英文场景，中英双语版本将在之后推出。