小红花·文摘

本研究提出序列偏好优化方法，利用NDCG解决大型语言模型与人类多样化偏好的对齐问题。结果显示，OPO在评估和基准测试中优于现有方法，并通过增加负样本池提升性能。