现有AI对齐方法假设偏好不变,但实际上偏好会随时间变化并受AI影响。为此,引入动态回报马尔可夫决策过程(DR-MDPs)来模拟这种变化。研究指出,静态假设可能导致AI系统暗中影响用户偏好。文章探讨了8种对齐概念,发现简单解决方案难以应对偏好变化,强调在实际环境中需平衡风险与能力,以更好地考虑偏好变化。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: