量子位 ·

北大千问团队推出数学专用版CriticGPT，找茬让大模型进步更快

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

北大千问团队推出了数学专用版CriticGPT，名为Math-Minos。该模型通过引入逐步的自然语言反馈作为理由标签，提供更深入的解释，丰富了验证器的训练信息。Math-Minos在ORM和PRM任务设置中展现出了优越的性能，特别是在ORM设置中。研究团队希望这项工作能够推动大型语言模型在复杂推理任务上的能力。

🎯

关键要点

北大千问团队推出数学专用版CriticGPT，名为Math-Minos。
Math-Minos通过逐步的自然语言反馈提供更深入的解释，丰富了验证器的训练信息。
在GSM8K数据集上，Math-Minos将Mistral-7B的准确率从86.6%提升到88.2%。
现有的数学验证器依赖二元分类标签，无法提供充分的监督信号。
Math-Minos克服了这一局限，提供了逐步分析错误原因的能力。
研究团队通过监督式微调和ORM、PRM训练提升了模型的评估能力。
在ORM和PRM任务设置中，Math-Minos展现出优越的性能，特别是在ORM设置中。
研究团队分析了生成器在步骤级别产生的错误，强调了自然语言反馈的重要性。
Math-Minos在训练过程中的元评估一致优于传统的ORM，展现出更快的收敛速度和更精准的判断能力。
Math-Minos的开发为自然语言处理领域提供了一种新的训练范式，推动大型语言模型在复杂推理任务上的能力。

❓

延伸问答

Math-Minos是如何提升数学验证器性能的？

Math-Minos通过引入逐步的自然语言反馈作为理由标签，提供更深入的解释，丰富了验证器的训练信息，从而提升了性能。

Math-Minos在GSM8K数据集上的准确率提升了多少？

Math-Minos将Mistral-7B在GSM8K数据集上的准确率从86.6%提升到88.2%。

现有的数学验证器存在哪些局限性？

现有的数学验证器大多依赖二元分类标签，无法提供充分的监督信号，导致在解释正确或错误原因上存在不足。

Math-Minos的训练方法有什么创新之处？

Math-Minos通过监督式微调和ORM、PRM训练，结合自然语言反馈，提供了一种新的训练范式。

在ORM和PRM任务设置中，Math-Minos的表现如何？

Math-Minos在ORM和PRM任务设置中均展现出优越的性能，特别是在ORM设置中改进更为显著。

研究团队对生成器错误的分析结果是什么？

研究团队将生成器在步骤级别产生的错误归类为五种类型，并发现累积错误在所有错误类型中占比最高。

🏷️

继续阅读

从超级个体到超级团队，腾讯云发布WorkBuddy企业版
腾讯云在AI产业应用大会上发布了WorkBuddy企业版及办公智能体套件，旨在帮助企业实现AI转型。该套件提供数字员工、人机协作和团队管理功能，提升工作效...
早报｜苹果App Store四成头部应用已支持AI/千问上线肯德基skill/奈雪擦边LABUBU被判赔32万
腾讯客服表示，微信与华为、小米等厂商合作推出A2A助手，用户可通过AI助手发起微信通话或发送消息。荣耀部分机型已支持此功能，确保数据安全与隐私。
团队在处理重复支付时面临的后台挑战
现代支付系统表面简单，但重复交易的后台复杂性显著。文章探讨了构建重复支付系统时的七个挑战，包括管理支付计划、避免重复收费、优雅处理失败支付、保持系统状态一...
Why Zig Isn’t 1.0 (Yet)
Most programming languages follow a familiar trajectory: early experimental r...
Why isn’t the Trump phone made in the USA?
Where's the Trump phone? We're going to keep talking about it every w...
This chunky little tablet got my kid to clean up his toys
Never underestimate the power that a cheap tablet holds over a kid under six....