小红花·文摘

本研究探讨了自动语法错误纠正（GEC）系统评估中人类偏好与自动评估之间的差距。提出了一种新的自动评估指标聚合方法，实验结果显示该方法在SEEDA基准上优于现有指标，且基于BERT的指标有时超越GPT-4的表现。