小红花·文摘

研究探讨了在多重冲突价值观和利益相关者背景下，如何有效对齐基于标量奖励的强化学习问题。提出多目标强化学习（MORL）作为替代方案，利用向量奖励更好地处理复杂价值观，提升AI系统的多样性和满意度。研究展示了MORL在创建多元对齐AI中的重要性，并验证了其在不同应用中的有效性。