大型语言模型能否检测重述和机器翻译中的内在幻觉？

本研究针对大型语言模型（LLMs）常见的幻觉现象进行探讨，评估其在重述和翻译任务中的内在幻觉检测能力。通过分析不同模型在各种任务和语言中的表现，研究发现模型性能在各种任务间存在差异，但在特定提示下表现一致，且自然语言推理模型的表现同样优异，表明LLM为基础的检测方法并非唯一选择。

本研究探讨大型语言模型（LLMs）的幻觉现象，评估其在重述和翻译任务中的幻觉检测能力。结果表明，不同任务和语言下模型表现存在差异，但在特定提示下表现一致，自然语言推理模型的检测能力尤为突出，表明LLM检测方法并非唯一选择。

大型语言模型幻觉现象机器翻译翻译自然语言推理重述