定位和检测语言模型基础的瑕疵:使用 Fakepedia
原文中文,约400字,阅读约需1分钟。发表于: 。中文摘要:本研究介绍了 Fakepedia,一个反事实数据集,用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在 Fakepedia 上的表现,并发现 GPT-4-turbo 更偏好参数化知识,而 Mistral-7B 则最稳定地选择了接地答案。此外,我们对大型语言模型进行因果中介分析,结果表明仅凭计算图的检查即可预测 92.8%...
自然语言处理和大型语言模型取得进展,但存在幻觉问题。研究发现FLAN-T5-11B作为事实验证器表现最佳。大型语言模型对高质量证据依赖,鲁棒性和泛化能力不足。研究为开发可信赖的生成模型提供见解。