BooookScore:基于 LLMs 时代的图书摘要系统性研究
原文中文,约200字,阅读约需1分钟。发表于: 。通过两种工作流程 (层级合并、递增更新) 实现基于 LLM 的书籍摘要器的连贯性研究,发现 LLM 会出现八种常见的连贯性错误,并提出了一个自动评估指标 BooookScore,与人工标注结果一致,可用于系统评估其他关键参数的影响,同时节省了人工评估成本。
该研究提出了一种新方法,通过从长文档中提取关键句子并提示大型语言模型来评估摘要,解决了计算成本高、长文档中重要信息被忽视的问题。研究结果显示该方法不仅显著降低了评估成本,而且与人工评估的相关性更高。此外,研究还提供了关于最佳文档长度和句子提取方法的实用建议,为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。