小红花·文摘

大型语言模型（LLMs）在知识密集型任务上表现出色，但在复杂推理和领域特定事实中仍有挑战。KGQuiz是一个基于知识的评估框架，用于分析不同领域和任务格式下LLMs的性能变化，并改进其在广泛知识领域和任务中的能力。