小红花·文摘

本研究针对大型语言模型中的幻觉现象，提出了全面的幻觉基准和统一分类框架，以提升评估和研究的有效性。通过引入新任务和动态测试集，增强评估的鲁棒性，提升用户对生成式人工智能的信任。