BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

大型语言模型是否可靠的评判者?一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。

研究发现大型语言模型常出现“幻觉”,需要事实验证器。FLAN-T5-11B在维基百科领域表现最佳。大型语言模型对高质量证据依赖,鲁棒性和泛化能力不足。

FLAN-T5-11B llm 事实验证器 大型语言模型 语言模型 高质量证据 鲁棒性

相关推荐 去reddit讨论