UPET是一个自训练框架,旨在解决标记数据稀缺问题。通过不确定性估计和伪标记样本选择,优化参数学习。研究还探讨了因果语言优化和偏好学习方法,提升大型语言模型的推理能力和性能。采用多参考模型偏好优化(MRPO)和自我增强式偏好优化(SAPO),有效提高了模型对人类偏好的遵循性和输出多样性。
完成下面两步后,将自动完成登录并继续当前操作。