小红花·文摘

UPET是一个自训练框架，旨在解决标记数据稀缺问题。通过不确定性估计和伪标记样本选择，优化参数学习。研究还探讨了因果语言优化和偏好学习方法，提升大型语言模型的推理能力和性能。采用多参考模型偏好优化（MRPO）和自我增强式偏好优化（SAPO），有效提高了模型对人类偏好的遵循性和输出多样性。