HalluLens：大型语言模型幻觉基准

本研究针对大型语言模型（LLM）中常见的幻觉现象，提出了一种全面的幻觉基准，旨在建立统一的分类框架，以提升对幻觉的评估和研究。研究的主要贡献在于引入新的外部幻觉任务以及动态生成测试集，从而提高评估的鲁棒性和有效性。该工作的影响在于增强用户对生成式人工智能系统的信任和接受度。

本研究针对大型语言模型中的幻觉现象，提出了全面的幻觉基准和统一分类框架，以提升评估和研究的有效性。通过引入新任务和动态测试集，增强评估的鲁棒性，提升用户对生成式人工智能的信任。

动态测试集大型语言模型幻觉现象用户信任评估语言模型