本研究提出了一种增强不确定性的偏好优化框架(UPO),以解决大型语言模型在迭代偏好优化过程中的性能不足问题。该框架通过成对不确定性估计和可靠反馈采样来减轻噪声偏好数据,并显著提升了偏好优化的性能。
完成下面两步后,将自动完成登录并继续当前操作。