大型语言模型(LLMs)在图推理方面有潜力,但对于其在真实世界任务中的推广能力仍存在疑问。NLGift基准测试评估了LLMs在图推理可推广性方面的表现,结果显示LLMs在推理和真实世界模式下的推广能力有限。研究发现后训练对齐是提高LLMs图推理可推广性的最有希望的策略。
提出了一种基于BERT的可学习无参考度量方法UNION,用于评估生成故事的质量。实验证明,UNION具有更好的相关性和可推广性。
完成下面两步后,将自动完成登录并继续当前操作。