提出Preference Ranking Optimization(PRO)策略,将人类偏好排名应用于语言模型生成的响应的概率排名,实现语言模型与人类价值观的对齐。PRO优于现有对齐算法,与ChatGPT和人类响应相当。长、多样化、高质量的偏好排名序列稳定提高语言模型与人对其的对齐性能。
提出了Preference Ranking Optimization(PRO)策略,将人类偏好排名应用于语言模型生成的响应的概率排名,实现了LLMs与人类价值观的对齐。PRO优于现有对齐算法,与ChatGPT和人类响应相当。长、多样化、高质量的偏好排名序列稳定提高LLMs与人对其的对齐性能。
完成下面两步后,将自动完成登录并继续当前操作。