本研究提出了一种基于信心奖励的偏好优化方法(CRPO),旨在提升机器翻译的数据质量。结果表明,CRPO在翻译准确性和数据效率方面优于现有方法,具有广泛的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。