多元观点的公平抽象摘要
原文中文,约500字,阅读约需2分钟。发表于: 。我们对用户生成数据进行了公平抽象概括的系统研究,首次正式定义了公平的抽象概括,并提出了四个参考无关的自动评估指标来测量目标和源观点之间的差异。实验证明,无论是模型生成的还是人工编写的参考概括都存在公平性较低的问题,我们提出了三种简单但有效的方法来缓解不公平的概括。
本文介绍了一个新任务:摘要多篇新闻文章中的多样信息。作者创建了DiverseSumm数据集并进行了全面分析。研究发现,大型语言模型在评估摘要全面性和忠实度时存在位置和冗长偏差,并且与人工评估相关性较低。作者还发现,尽管大型语言模型在单篇文档摘要方面表现出色,但在摘要多篇新闻文章时仍面临挑战。