本研究探讨大型语言模型在类比推理中的能力,发现其知识泛化表现不佳,未达到人类水平。
大型语言模型在知识密集任务中表现出色,但其知识泛化能力不明确。KGQuiz评估框架涵盖五个任务和三个领域,实验显示LLMs在简单问答中表现良好,但在复杂推理和特定领域中有挑战。KGQuiz用于分析不同领域和任务的性能变化,以提升LLMs的知识能力。
完成下面两步后,将自动完成登录并继续当前操作。