可控偏好优化:朝着可控的多目标对齐
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入可控偏好优化(CPO),我们可以实现模型响应满足不同目标需求的对齐模型,并在多目标对齐中获得 Pareto 改进。
提出了Preference Ranking Optimization(PRO)策略,将人类偏好排名应用于语言模型生成的响应的概率排名,实现了LLMs与人类价值观的对齐。PRO优于现有对齐算法,与ChatGPT和人类响应相当。长、多样化、高质量的偏好排名序列稳定提高LLMs与人对其的对齐性能。