💡
原文中文,约4100字,阅读约需10分钟。
📝
内容提要
AIxiv专栏促进了学术交流,报道了2000多篇内容。研究者开发了广义关联回忆(GAR)基准测试,评估大型语言模型(LLM)在组合关系推理中的表现,发现其存在核心缺陷,并揭示了模型的推理机制,提出了优化建议以提升推理能力。
🎯
关键要点
- AIxiv专栏促进了学术交流,报道了2000多篇内容。
- 研究者开发了广义关联回忆(GAR)基准测试,评估大型语言模型(LLM)在组合关系推理中的表现。
- GAR基准测试整合了多个经典任务,系统考察模型的推理能力。
- 现有模型在GAR任务上的表现不理想,暴露了组合推理能力的缺陷。
- 模型规模与性能之间存在组合性差距,增加模型规模并不能完全解决问题。
- 人类在GAR任务上的准确率超过90%,显示LLM在组合关系推理上存在根本性缺陷。
- 研究者采用归因补丁方法分析模型的推理机制,发现核心回路和关键注意力头的作用。
- 通过干预关键注意力头,研究者提升了模型在判别任务上的准确率。
- 研究首次明确指出LLMs在组合关系推理任务中的核心缺陷,为模型改进提供了启发和洞见。
➡️