小红花·文摘

大型语言模型（LLMs）在图推理方面有潜力，但对于其在真实世界任务中的推广能力仍存在疑问。NLGift基准测试评估了LLMs在图推理可推广性方面的表现，结果显示LLMs在推理和真实世界模式下的推广能力有限。研究发现后训练对齐是提高LLMs图推理可推广性的最有希望的策略。

BriefGPT - AI 论文速递 ·

提出了一种基于BERT的可学习无参考度量方法UNION，用于评估生成故事的质量。实验证明，UNION具有更好的相关性和可推广性。

BriefGPT - AI 论文速递 ·