AIxiv专栏促进了学术交流,报道了2000多篇内容。研究者开发了广义关联回忆(GAR)基准测试,评估大型语言模型(LLM)在组合关系推理中的表现,发现其存在核心缺陷,并揭示了模型的推理机制,提出了优化建议以提升推理能力。
完成下面两步后,将自动完成登录并继续当前操作。