小红花·文摘

本研究探讨了基于人类偏好的奖励模型在AI对齐中的应用，提出了动态回报马尔可夫决策过程（DR-MDPs）以应对偏好的变化。通过多策略优化和可控偏好优化（CPO），实现了模型与多目标的对齐，并强调了改进表现较差输出的重要性。此外，研究还提出了新的因果框架和数据增强技术，以提升奖励模型的性能和对齐效果。