小红花·文摘

本研究提出了一种基于信心奖励的偏好优化方法（CRPO），旨在提升机器翻译的数据质量。结果表明，CRPO在翻译准确性和数据效率方面优于现有方法，具有广泛的应用潜力。