OpinSummEval: 重新审视舆情摘要自动评估

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

OpinSummEval是一个包含人工评价和14个观点总结模型输出的数据集。研究者发现,基于神经网络的自动评估指标通常优于非神经网络的指标,但即使是强大的模型也不能在所有维度上一致地与人工评分相关。需要进一步改进观点总结自动评估方法。

🎯

关键要点

  • OpinSummEval是一个包含人工评价和14个观点总结模型输出的数据集。
  • 观点总结任务独特关注于方面和情感,与其他总结任务不同。
  • 研究探讨了24个自动评估指标与人工评分在四个维度上的相关性。
  • 基于神经网络的自动评估指标通常优于非神经网络的指标。
  • 即使是强大的模型(如BART和GPT-3/3.5)也不能在所有维度上与人工评分一致相关。
  • 需要进一步改进观点总结的自动评估方法。
  • 代码和数据可在指定URL公开获取。
➡️

继续阅读