利用人类反馈改进机器翻译:基于质量估计的奖励模型探索
原文中文,约400字,阅读约需1分钟。发表于: 。在这项研究中,我们调查了采用质量估计 (QE) 模型作为奖励模型 (基于 QE 的奖励模型) 以预测人类偏好用于反馈训练的潜力,并解决了过优化问题以及错误传播问题。通过准确检测出错误翻译并对其进行罚分,我们提出了一种简单而有效的方法。实验结果显示,利用基于 QE 的反馈训练可以在各种情况下实现持续且显著的改进,通过人类偏好研究得到了进一步验证。我们的进一步分析表明,基于 QE...
在这项研究中,研究人员使用质量估计模型作为奖励模型,以预测人类偏好并进行反馈训练。他们解决了过优化和错误传播问题,并通过检测和罚分错误翻译提出了一种简单有效的方法。实验结果显示,基于质量估计的反馈训练在各种情况下都能实现持续且显著的改进,并得到了人类偏好研究的验证。进一步分析表明,基于质量估计的反馈训练具有高效的数据利用率。