我们能捉住大象吗？自然语言生成中幻觉评估的演变：综述

原文约400字，阅读约需1分钟。发表于：。

自然语言生成（NLG）中的幻觉就像房间里的大象，明显却经常被忽视，直到最近取得了显著进展，提高了生成文本的流畅性和语法准确性。对于大型语言模型（LLMs），幻觉可能在各种下游任务和随意对话中发生，需要准确评估以提高可靠性和安全性。然而，目前关于幻觉评估的研究存在很大的差异，人们仍然难以整理和选择最合适的评估方法。此外，随着自然语言处理研究逐渐转向 LLMs 领域，这一问题带来了新的挑战。本文对幻觉评估方法的发展进行了全面调查，旨在解决三个关键方面的问题：1）事实的多样定义和粒度；2）自动评估器的分类及其适用性；3）未解决的问题和未来的方向。

调查自然语言生成中的幻觉评估方法的发展，解决多样定义、分类及未解决问题。