引文评估中忠实度指标与人类的比较分析
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究提出了不忠实最小分组(BUMP)的基准测试,该数据集由889个人类编写的最小不同摘要对组成,摘要来自CNN / DailyMail数据集,揭示了度量标准的稳定性和不足之处。
🎯
关键要点
- 本研究提出了不忠实最小分组(BUMP)的基准测试。
- BUMP数据集由889个人类编写的最小不同摘要对组成。
- 摘要来源于CNN / DailyMail数据集。
- 通过引入7种类型的本体论单个错误生成不忠实的摘要。
- 基准测试使度量稳定性的测量成为可能。
- 最具辨别力的度量标准往往不是最稳健的。
- 研究突出了度量标准在个别错误类型上的表现和未来工作的不足之处。
➡️