OpinSummEval: 重新审视舆情摘要自动评估
原文中文,约300字,阅读约需1分钟。发表于: 。观点总结与其他类型的总结任务有所不同,因为其独特关注于方面和情感。本文介绍了 OpinSummEval,它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明,基于神经网络的指标通常优于非神经网络的指标。然而,即使是构建在强大的模型基础之上,如 BART 和...
OpinSummEval是一个包含人工评价和14个观点总结模型输出的数据集。研究者发现,基于神经网络的自动评估指标通常优于非神经网络的指标,但即使是强大的模型也不能在所有维度上一致地与人工评分相关。需要进一步改进观点总结自动评估方法。