从模型中心到人本中心：基于语言模型的应用中文本评估的修订距离度量

我们的研究将焦点从以模型为中心的评估方法转变为以人为中心的评估方法，提出了一种名为 “修订距离” 的度量方法，通过计算大型语言模型生成的修订编辑数来评估文本，并在易写作任务和具有挑战性的学术写作任务中提供更准确、详细的反馈，同时在缺乏参考文本的情况下也具有潜力。

本文研究了与人类评价相关的度量标准，并提出了新的度量标准MoBERT。通过人类评价发现，目前用于此任务的度量标准与人类判断相关性较低，而常用的度量标准和坐标误差与人类判断相关性较高。不推荐使用一些最近开发的度量标准。结果显示，MoBERT在样本级别和模型级别上与人类判断相关性高，优于当前所有替代方案。