本研究探讨了生成型大型语言模型(LLMs)产生幻觉的问题,提出了HALoGEN基准,包含来自九个领域的10,923个提示及其验证器。研究发现,表现最佳的模型中有86%的生成事实存在幻觉,并建立了新的幻觉错误分类体系。
该研究提出了TRIGO,用于评估生成型语言模型在公式推理、数字项操作、分组和因式分解方面的推理能力。实验结果显示,TRIGO对于包括在大量开源形式定理证明语言数据上预训练的GPT-4在内的先进生成型语言模型提出了新的挑战。
完成下面两步后,将自动完成登录并继续当前操作。