直接与多样化偏好对齐

📝

内容提要

本研究解决了人类偏好的多样性问题,探讨在单一策略下如何对齐不同用户类型的偏好。提出通过用户类型的平均奖励来实现对齐,并发现不同信息设置下的直接对齐方法的有效性,尤其是在获得全面用户反馈时能更好地学习最优策略。研究揭示了直接政策对齐中一致性与样本效率之间的根本张力。

➡️

继续阅读