基于大型语言模型的可控指令摘要生成与评估能力基准测试

原文约300字，阅读约需1分钟。发表于：。

语言模型在标准的概括基准测试中已经取得了强大的性能，但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估，并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明，指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务，存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum，以促进未来的相关研究。

研究发现，语言模型在指令可控的文本概括任务中表现不佳，存在错误和性能差异。研究者提供了评估基准IntruSum，以促进相关研究。