小红花·文摘

本研究提出了一种增强不确定性的偏好优化框架（UPO），以解决大型语言模型在迭代偏好优化过程中的性能不足问题。该框架通过成对不确定性估计和可靠反馈采样来减轻噪声偏好数据，并显著提升了偏好优化的性能。