AAAI 2025 | 大模型会组合关系推理吗？打开黑盒，窥探Transformer脑回路

机器之心 ·

AAAI 2025 | 大模型会组合关系推理吗？打开黑盒，窥探Transformer脑回路

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

AIxiv专栏促进了学术交流，报道了2000多篇内容。研究者开发了广义关联回忆（GAR）基准测试，评估大型语言模型（LLM）在组合关系推理中的表现，发现其存在核心缺陷，并揭示了模型的推理机制，提出了优化建议以提升推理能力。

🎯

关键要点

AIxiv专栏促进了学术交流，报道了2000多篇内容。
研究者开发了广义关联回忆（GAR）基准测试，评估大型语言模型（LLM）在组合关系推理中的表现。
GAR基准测试整合了多个经典任务，系统考察模型的推理能力。
现有模型在GAR任务上的表现不理想，暴露了组合推理能力的缺陷。
模型规模与性能之间存在组合性差距，增加模型规模并不能完全解决问题。
人类在GAR任务上的准确率超过90%，显示LLM在组合关系推理上存在根本性缺陷。
研究者采用归因补丁方法分析模型的推理机制，发现核心回路和关键注意力头的作用。
通过干预关键注意力头，研究者提升了模型在判别任务上的准确率。
研究首次明确指出LLMs在组合关系推理任务中的核心缺陷，为模型改进提供了启发和洞见。

❓

延伸问答

广义关联回忆（GAR）基准测试的目的是什么？

GAR基准测试旨在评估大型语言模型在组合关系推理任务中的表现，并研究模型如何解决这些任务。

现有大型语言模型在GAR任务上的表现如何？

现有模型在GAR任务上的表现不理想，暴露了它们在组合推理能力上的缺陷，尤其在任务复杂度增加时，正确率显著下降。

人类在GAR任务中的表现如何？

研究表明，人类在GAR任务中的准确率超过90%，显示出人类在组合关系推理方面的优势。

研究者如何分析大型语言模型的推理机制？

研究者采用归因补丁方法，识别模型中关键注意力头的作用，以分析模型的推理机制。

组合性差距（Compositionality Gap）是什么？

组合性差距指的是模型在回答各个子问题时表现良好，但无法正确组合这些答案以得出最终结论的现象。

如何提升大型语言模型的推理能力？

通过干预关键注意力头，研究者能够显著提升模型在判别任务上的准确率，从而改善推理能力。

🏷️

继续阅读

自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
网络设备曾经看起来像小型笔记本电脑，但现在它们变得更加个性化
近年来，网络设备（cyberdecks）向个性化发展，许多DIY爱好者在社交媒体上展示将计算机组件隐藏在手袋、玩具等物品中的创意。这些迷你Linux计算机...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...