小红花·文摘

该研究提出了广义关联记忆（GAR）基准测试工具，以解决大型语言模型（LLMs）在组合关系推理（CRR）任务中的理解不足。研究发现现有模型在CRR能力上存在缺陷，并识别出模型在不同任务中重用的核心电路和关键注意力头，为理解模型性能提供了重要见解。