机器之心 ·

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

推理已成为语言模型的重要研究领域，关于强化学习（RL）对蒸馏模型的提升效果存在争议。研究表明，RL的改进可能只是噪音，且在不同评估条件下结果不稳定。尽管某些模型有轻微改进，但通常不如监督微调有效。研究者提出了标准化评估框架，以提高结果的可重复性和严谨性。

🎯

关键要点

推理已成为语言模型的重要研究领域，强化学习对蒸馏模型的提升效果存在争议。
研究表明，强化学习的改进可能只是噪音，且结果在不同评估条件下不稳定。
尽管某些模型有轻微改进，但通常不如监督微调有效。
研究者提出了标准化评估框架，以提高结果的可重复性和严谨性。
强化学习在某些情况下可能有助于改进蒸馏模型，但其好处被夸大了。
评估过程中使用的随机种子引起的方差常被忽视，影响结果的可靠性。
硬件和评估框架的差异也会造成性能差异，需加以控制。
Prompt格式和上下文长度对模型性能有显著影响。
通过强化学习训练的方法未能显著提升性能，监督微调表现出更强的泛化能力。
较长的响应与较高的错误概率相关，提示响应长度的重要性。
未观察到一致的多样性坍缩现象，Pass@1的提升通常伴随着Pass@k的整体改善。

❓

延伸问答

强化学习对蒸馏模型的提升效果如何？

研究表明，强化学习的改进可能只是噪音，且在不同评估条件下结果不稳定，通常不如监督微调有效。

研究者提出了什么方法来提高评估结果的可靠性？

研究者提出了标准化评估框架，以提高结果的可重复性和严谨性。

强化学习训练的模型在性能上有什么限制？

通过强化学习训练的方法未能显著提升性能，且通常不能很好地推广到新的基准。

评估过程中随机种子对结果的影响有多大？

仅仅改变一个随机种子就足以使得分发生几个百分点的变化，显示出评估结果的不稳定性。

在推理模型中，响应长度与错误概率之间有什么关系？

较长的响应与较高的错误概率相关，提示响应长度的重要性。

强化学习在推理模型中的实际应用效果如何？

尽管在某些情况下可能有助于改进蒸馏模型，但其好处被夸大了，且通常不如监督微调有效。

🏷️

继续阅读

《混沌之脑（Chaos;Head）》游戏原案（下）
故事围绕拓巳的内心挣扎展开，他渴望死亡却又害怕死亡，反复经历自杀幻想。面对七海的存在，他感到困惑与绝望，认为自己是妄想的产物，最终在痛苦中寻求解脱，渴望被他人解放。
《混沌之脑（Chaos;Head）》游戏原案（上）
在《混沌之脑》中，西条拓巳在崩坏的城市中体验到恐惧与孤独，卷入“新世代疯狂”事件。故事探讨存在的意义、孤独感以及对现实与虚拟的逃避。拓巳的内心挣扎与妄想交...
Spotify认证徽章让你知道这位艺术家不是人工智能创作的
Spotify推出新的验证程序，旨在打击垃圾信息、假冒和人工智能音乐。获得“Spotify认证”标志的艺术家需具备持续的听众活动和参与度。目前，AI生成音...
代理现在可以创建Cloudflare账户、购买域名并部署应用
代理现在可以代表用户创建Cloudflare账户、购买域名并部署应用，整个过程无需人工干预。通过与Stripe合作的新协议，代理能够快速完成这些任务，简化...
首选来源现已支持所有语言。
谷歌推出“首选来源”功能，用户可以选择更常出现在头条新闻中的新闻网站。此功能已帮助用户与重视的来源建立联系，标记为首选来源后，用户点击率提高了一倍。目前已...
使用AI Max调整您的购物广告活动以适应现代搜索
谷歌推出了AI Max for Shopping，旨在帮助零售商提升购物广告策略。该工具利用商户中心的数据，用户可一键升级，保留现有的产品定位和出价灵活性...