强偏好影响价值对齐的稳健性

本文研究了价值对齐的稳健性，揭示偏好模型对偏好变化的敏感性。我们发现，在Bradley-Terry和Plackett-Luce模型中，某些偏好的概率会随着其他偏好的变化而显著改变，尤其是在主导偏好的情况下。这一发现对AI系统的价值对齐的稳健性和安全性具有重要影响。

现有AI对齐方法假设偏好不变，但实际上偏好会随时间变化并受AI影响。为此，引入动态回报马尔可夫决策过程（DR-MDPs）来模拟这种变化。研究指出，静态假设可能导致AI系统暗中影响用户偏好。文章探讨了8种对齐概念，发现简单解决方案难以应对偏好变化，强调在实际环境中需平衡风险与能力，以更好地考虑偏好变化。

AI对齐 DR-MDPs 偏好变化风险平衡马尔可夫决策过程