机器之心 ·

更长思维并不等于更强推理性能，强化学习可以很简洁

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

著名研究者Sebastian Raschka解读了一篇关于强化学习的论文，指出模型生成较长响应是由于训练中的负奖励，而非准确度需求。研究表明，较长的响应可以稀释每个token的惩罚，导致模型学习到长回答也能减少惩罚。论文提出了两阶段强化学习方法：第一阶段训练困难问题，第二阶段使用偶尔可解的问题以提高简洁性和准确度。

🎯

关键要点

著名研究者Sebastian Raschka解读了一篇关于强化学习的论文，指出模型生成较长响应是由于训练中的负奖励，而非准确度需求。
研究表明，较长的响应可以稀释每个token的惩罚，导致模型学习到长回答也能减少惩罚。
论文提出了两阶段强化学习方法：第一阶段训练困难问题，第二阶段使用偶尔可解的问题以提高简洁性和准确度。
简洁性与准确度之间存在相关性，简洁的推理往往与更高的准确度密切相关。
对PPO损失函数的动态分析表明，错误的答案往往导致响应较长，而正确的答案则倾向于简洁。
即使在非常小的数据集上，强化学习的后训练阶段仍然有效，适用于资源受限的场景。
强化学习的目标是最小化损失，而非解决问题，这揭示了强化学习的一个普遍问题。
每个推理问题构成一个马尔可夫决策过程（MDP），并且强化学习训练过程中响应长度的变化由损失最小化驱动。
提出的两阶段强化学习训练方法能在保持准确度的同时提升简洁性。
实验结果表明，新的两阶段强化学习训练方法显著降低响应长度，同时保持准确度稳定。

❓

延伸问答

强化学习如何影响模型的响应长度？

强化学习中的负奖励会导致模型生成较长的响应，因为较长的响应可以稀释每个token的惩罚，从而降低损失值。

什么是两阶段强化学习方法？

两阶段强化学习方法包括第一阶段训练困难问题，第二阶段使用偶尔可解的问题以提高简洁性和准确度。

简洁性与准确度之间有什么关系？

研究表明，简洁的推理往往与更高的准确度密切相关，较长的响应通常与错误答案相关。

强化学习在小数据集上的有效性如何？

即使在非常小的数据集上，强化学习的后训练阶段仍然有效，适用于资源受限的场景。

如何通过强化学习提高模型的准确度？

通过进一步的强化学习后训练，可以在保持准确度的同时缩短响应长度，从而提升模型的性能和稳健性。

PPO损失函数与响应长度有什么关系？

对PPO损失函数的动态分析表明，错误的答案往往导致响应较长，而正确的答案则倾向于简洁。

🏷️

继续阅读

微软披露Microsoft Defender中存在的2个安全漏洞可被黑客用于本地提升权限
#安全资讯微软披露 Microsoft Defender 中存在的 2 个安全漏洞，可被黑客用于本地权限提升到 SYSTEM 权限。目前微软已经通过软件...
十年难题终获突破：揭秘 Go 1.27 接口逃逸分析优化
本文永久链接 – https://tonybai.com/2026/05/22/go-1-27-interface-escape-analysis-opt...
AC 自动机：多模式匹配与入侵检测系统
AC自动机是一种高效的多模式匹配算法，通过构建Trie树和KMP算法的失配指针，在一次文本扫描中同时找到多个模式串，时间复杂度为O(n + m + z)。...
【操作系统百科】splice/tee/vmsplice
本文介绍了Linux中的零拷贝技术，包括splice、tee、vmsplice和sendfile等API。splice通过内核直接传输数据，避免用户态缓冲...
HHost香港VPS $3.5/月：自带CNIX优化线路，1G内存+10G SSD，500M@1T流量
HHost香港VPS推出新业务，提供CNIX优化线路，1G内存和10G SSD，月费仅$3.5，适合香港及海外客户与中国内地协作，现有8.5折优惠。用户需...
OpenClaw v2026.5.20：Discord语音跟随和doctor拦截明文密钥
OpenClaw 2026.5.20版本更新了Discord语音功能，机器人可以跟随用户换频道，并新增doctor插件以自动检测明文密码。修复了Windo...