小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种框架，通过话语分析将长文档分解为片段，从而有效解决了长文档摘要中的事实不一致性检测问题，显著提升了摘要质量。

Discourse-Based Evaluation: Unveiling Factual Inconsistencies in Long Document Summarization

BriefGPT - AI 论文速递 ·

本研究提出了SummExecEdit基准，旨在解决现有摘要评估在事实不一致性和可解释性方面的不足。研究显示，最优模型Claude3-Opus的检测与解释联合分数仅为0.49，表明模型的准确性仍需提高。

SummExecEdit: A Benchmark for Fact Consistency in Summaries with Executable Edits

BriefGPT - AI 论文速递 ·