本文介绍了一种基于统计模型的文本生成评估方法,结合自动化度量与人工评级,能够在只使用50%人工评注的情况下,获得与100%人工评级相同的结果。研究分析了人工反馈的偏见,发现偏好得分未能充分反映重要特性,如事实性,且可能受到混杂因素影响。建议未来研究关注偏好得分与目标的一致性。
完成下面两步后,将自动完成登录并继续当前操作。