小红花·文摘

本文介绍了一种基于统计模型的文本生成评估方法，结合自动化度量与人工评级，能够在只使用50%人工评注的情况下，获得与100%人工评级相同的结果。研究分析了人工反馈的偏见，发现偏好得分未能充分反映重要特性，如事实性，且可能受到混杂因素影响。建议未来研究关注偏好得分与目标的一致性。