小红花·文摘

本研究评估了新闻摘要的信度，发现大型语言模型与人类判断高度相关。通过新方法和多轮后编辑，显著提升了摘要的信度，为自动化处理提供了新思路。

BriefGPT - AI 论文速递 ·

本研究提出了不忠实最小分组（BUMP）基准测试，用于评估长文本自动摘要的信度，并介绍了ALCE和ALiiCE等自动评估框架。研究指出大型语言模型在生成摘要和引用时面临挑战，并提出了改进引用质量的训练框架FRONT，显示出显著的提升潜力。

BriefGPT - AI 论文速递 ·