小红花·文摘

大型语言模型（LLMs）在图推理能力上有潜力，但对于学习可推广的技能还不确定。NLGift基准测试评估了LLMs在真实世界图任务上的效用，结果显示推理和真实世界模式下推广困难。后训练对齐是改进LLM图推理可推广性的最有希望的策略。