AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

💡 原文中文,约4100字,阅读约需10分钟。
📝

内容提要

AIxiv专栏促进了学术交流,报道了2000多篇内容。研究者开发了广义关联回忆(GAR)基准测试,评估大型语言模型(LLM)在组合关系推理中的表现,发现其存在核心缺陷,并揭示了模型的推理机制,提出了优化建议以提升推理能力。

🎯

关键要点

  • AIxiv专栏促进了学术交流,报道了2000多篇内容。

  • 研究者开发了广义关联回忆(GAR)基准测试,评估大型语言模型(LLM)在组合关系推理中的表现。

  • GAR基准测试整合了多个经典任务,系统考察模型的推理能力。

  • 现有模型在GAR任务上的表现不理想,暴露了组合推理能力的缺陷。

  • 模型规模与性能之间存在组合性差距,增加模型规模并不能完全解决问题。

  • 人类在GAR任务上的准确率超过90%,显示LLM在组合关系推理上存在根本性缺陷。

  • 研究者采用归因补丁方法分析模型的推理机制,发现核心回路和关键注意力头的作用。

  • 通过干预关键注意力头,研究者提升了模型在判别任务上的准确率。

  • 研究首次明确指出LLMs在组合关系推理任务中的核心缺陷,为模型改进提供了启发和洞见。

延伸问答

广义关联回忆(GAR)基准测试的目的是什么?

GAR基准测试旨在评估大型语言模型在组合关系推理任务中的表现,并研究模型如何解决这些任务。

现有大型语言模型在GAR任务上的表现如何?

现有模型在GAR任务上的表现不理想,暴露了它们在组合推理能力上的缺陷,尤其在任务复杂度增加时,正确率显著下降。

人类在GAR任务中的表现如何?

研究表明,人类在GAR任务中的准确率超过90%,显示出人类在组合关系推理方面的优势。

研究者如何分析大型语言模型的推理机制?

研究者采用归因补丁方法,识别模型中关键注意力头的作用,以分析模型的推理机制。

组合性差距(Compositionality Gap)是什么?

组合性差距指的是模型在回答各个子问题时表现良好,但无法正确组合这些答案以得出最终结论的现象。

如何提升大型语言模型的推理能力?

通过干预关键注意力头,研究者能够显著提升模型在判别任务上的准确率,从而改善推理能力。

➡️

继续阅读