小红花·文摘

大型语言模型在图形结构数据推理上存在局限。为此，引入了GraphEval2000数据集和评估框架，包含40个问题和2000个测试用例，分为四个主要和次要类别。评估显示，LLM在有向图理解上优于无向图，私有模型表现更好但差距缩小。提出的结构化符号分解方法提高了GPT-3.5、GPT-4和GPT-4o在复杂图形问题上的性能。