通过信息论奖励建模减轻奖励作弊

本研究通过引入变分信息瓶颈目标以过滤无关信息和开发模型复杂性调节机制，从信息论的角度解决了强化学习中奖励建模的问题，并通过对潜在空间中的异常值与过度优化之间的相关性进行了认识，提出了一种用于检测奖励过度优化的指标 Integrated Cluster Deviation Score (ICDS)，从而促进在线减缓策略的发展。经过一系列实验证明了 InfoRM...

本研究通过引入变分信息瓶颈目标以解决强化学习中奖励建模的问题，并提出了一种用于检测奖励过度优化的指标ICDS。实验证明了InfoRM的有效性，显示其奖励过度优化检测机制的有效性，可能标志着RLHF领域的进步。

ICDS RLHF领域变分信息瓶颈目标奖励建模奖励过度优化建模