本研究评估了新闻摘要的信度,发现大型语言模型与人类判断高度相关。通过新方法和多轮后编辑,显著提升了摘要的信度,为自动化处理提供了新思路。
本研究提出了不忠实最小分组(BUMP)基准测试,用于评估长文本自动摘要的信度,并介绍了ALCE和ALiiCE等自动评估框架。研究指出大型语言模型在生成摘要和引用时面临挑战,并提出了改进引用质量的训练框架FRONT,显示出显著的提升潜力。
完成下面两步后,将自动完成登录并继续当前操作。