强偏好影响价值对齐的稳健性
原文中文,约500字,阅读约需2分钟。发表于: 。本文研究了价值对齐的稳健性,揭示偏好模型对偏好变化的敏感性。我们发现,在Bradley-Terry和Plackett-Luce模型中,某些偏好的概率会随着其他偏好的变化而显著改变,尤其是在主导偏好的情况下。这一发现对AI系统的价值对齐的稳健性和安全性具有重要影响。
现有AI对齐方法假设偏好不变,但实际上偏好会随时间变化并受AI影响。为此,引入动态回报马尔可夫决策过程(DR-MDPs)来模拟这种变化。研究指出,静态假设可能导致AI系统暗中影响用户偏好。文章探讨了8种对齐概念,发现简单解决方案难以应对偏好变化,强调在实际环境中需平衡风险与能力,以更好地考虑偏好变化。