本研究提出序列偏好优化方法,利用NDCG解决大型语言模型与人类多样化偏好的对齐问题。结果显示,OPO在评估和基准测试中优于现有方法,并通过增加负样本池提升性能。
完成下面两步后,将自动完成登录并继续当前操作。