著名研究者Sebastian Raschka解读了一篇关于强化学习的论文,指出模型生成较长响应是由于训练中的负奖励,而非准确度需求。研究表明,较长的响应可以稀释每个token的惩罚,导致模型学习到长回答也能减少惩罚。论文提出了两阶段强化学习方法:第一阶段训练困难问题,第二阶段使用偶尔可解的问题以提高简洁性和准确度。
完成下面两步后,将自动完成登录并继续当前操作。