机器之心 ·

陶哲轩：通义千问QwQ奥数真厉害，开源大模型顶流

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

QwQ是新发布的开源AI模型，在AI数学奥林匹克竞赛中表现优异，展现出研究生水平的推理能力，尤其在数学和编程领域。尽管存在一些局限性，QwQ的能力引起了广泛关注。

🎯

🔎

QwQ模型在数学和编程领域展现出研究生水平的推理能力，尤其在AI数学奥林匹克竞赛中表现突出。这一能力不仅为数学研究提供了新的工具，也可能推动教育和科研领域的变革，帮助学生和研究者更高效地解决复杂问题。

AI数学奥林匹克竞赛（AIMO）旨在推动AI模型的数学推理能力，参赛团队需公开代码和方法。这种开放性促进了技术的共享与进步，但也对参赛者提出了更高的要求，需在竞争中不断创新以保持领先。

尽管QwQ展现了强大的推理能力，但仍存在语言混合使用和偏见等局限性。随着模型的迭代和研究的深入，这些问题有望得到解决。关注这些局限性将有助于更好地理解和应用QwQ。

❓

QwQ模型展现出研究生水平的推理能力，尤其在数学和编程领域表现突出。

AIMO旨在推动AI模型的数学推理能力，促进前沿知识的发展。

QwQ在AIMO竞赛中表现优异，创造了新纪录，某团队使用QwQ-32B获得了18/20的成绩。

QwQ模型存在语言混合使用、偶有不恰当偏见和对专业领域问题不了解等局限性。

QwQ在GPQA评测集上获得65.2%的准确率，显示出研究生水平的科学推理能力。

QwQ是阿里云通义千问团队推出的实验性研究模型，首次开源的AI推理模型。

🏷️