AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

💡 原文中文,约4100字,阅读约需10分钟。
📝

内容提要

AIxiv专栏促进了学术交流,报道了2000多篇内容。研究者开发了广义关联回忆(GAR)基准测试,评估大型语言模型(LLM)在组合关系推理中的表现,发现其存在核心缺陷,并揭示了模型的推理机制,提出了优化建议以提升推理能力。

🎯

关键要点

  • AIxiv专栏促进了学术交流,报道了2000多篇内容。
  • 研究者开发了广义关联回忆(GAR)基准测试,评估大型语言模型(LLM)在组合关系推理中的表现。
  • GAR基准测试整合了多个经典任务,系统考察模型的推理能力。
  • 现有模型在GAR任务上的表现不理想,暴露了组合推理能力的缺陷。
  • 模型规模与性能之间存在组合性差距,增加模型规模并不能完全解决问题。
  • 人类在GAR任务上的准确率超过90%,显示LLM在组合关系推理上存在根本性缺陷。
  • 研究者采用归因补丁方法分析模型的推理机制,发现核心回路和关键注意力头的作用。
  • 通过干预关键注意力头,研究者提升了模型在判别任务上的准确率。
  • 研究首次明确指出LLMs在组合关系推理任务中的核心缺陷,为模型改进提供了启发和洞见。
➡️

继续阅读