GraCoRe:大型语言模型中的图推理与复杂推理基准测试
原文中文,约500字,阅读约需1分钟。发表于: 。本文介绍了 GraCoRe,这是一个用于系统评估 LLMs 的图形理解和推理能力的基准测试,它使用三层分层分类法对纯图形和异构图形进行测试,并通过 19 个任务对 10 个不同能力进行测试,研究发现语义增强提高了推理性能,节点排序影响任务成功,处理更长的文本并不一定提高图形理解或推理能力。
大型语言模型(LLMs)在图推理能力上有潜力,但对于学习可推广的技能还不确定。NLGift基准测试评估了LLMs在真实世界图任务上的效用,结果显示推理和真实世界模式下推广困难。后训练对齐是改进LLM图推理可推广性的最有希望的策略。