本研究提出了一种新颖的两阶段训练方法,有效解决了大型语言模型在评判者训练中的数据消耗和准确性不足的问题。实验结果表明,该方法在数据需求仅为其他方法的2%至40%时,显著提升了模型的性能和通用能力。
完成下面两步后,将自动完成登录并继续当前操作。