西班牙语和巴斯克语的摘要评估指标:自动评分与大型语言模型判断者与人类的相关性如何?

📝

内容提要

本研究解决了自动文本摘要评估指标和大型语言模型(LLM)作为评判者模型在西班牙语和巴斯克语中的有效性不足的问题。通过新的BASSE数据集,我们收集了2040个摘要的人类评估数据,结果显示专有评判的LLM与人类判断的相关性最高,这为多语言摘要评估提供了重要的见解和影响。发表的BASSE数据集和代码为后续研究提供了基础。

🏷️

标签

➡️

继续阅读