一篇研究论文首次形式化了大模型时代的奖励黑客行为,揭示了目标压缩、优化放大和评估器-策略协同适应三要素的交互作用导致的安全失效。论文提出了三类缓解策略:增强表示、鲁棒策略优化和评估器-策略解耦,以应对奖励黑客现象。
完成下面两步后,将自动完成登录并继续当前操作。