量子位 ·

AI解数学题只靠最后一个token

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

研究表明，大语言模型在解心算题时，计算主要集中在最后一个token上，表明模型在特定任务中不需全局信息。通过消融实验，揭示了模型内部的稀疏子图结构，强调了输入特定计算与通用计算的分离。

🎯

关键要点

研究发现大语言模型在心算任务中，计算主要集中在最后一个token上。
全局信息访问在特定任务中并非必需，模型可以通过局部信息完成计算。
研究采用上下文感知平均消融和基于注意力的窥视技术进行消融实验。
模型内部形成稀疏子图，称为“人人为我”，通过最少计算层高效完成运算。
输入的前几层token主要进行通用准备工作，而最后一个token负责实际计算。
研究揭示了任务通用型计算与输入特定型计算的分离。
实验表明，Llama-3-8B模型在心算任务中只需前14层进行通用计算，最后token进行自计算。
AF1_llama在多个任务中表现出高忠实度，且关键注意力头集中在少数层。
AF1_llama在直接算术任务中保持高准确率，但在需要语义理解的任务上表现不佳。
研究为大语言模型中的算术推理和跨token计算机制提供了新的理解和方法论创新。

❓

延伸问答

大语言模型在解心算题时主要依赖哪个token？

大语言模型在解心算题时主要依赖最后一个token进行计算。

研究中提到的稀疏子图是什么？

稀疏子图是指模型内部形成的结构，称为“人人为我”，通过最少计算层高效完成运算。

心算任务中全局信息访问是否必要？

在心算任务中，全局信息访问并非必需，模型可以通过局部信息完成计算。

研究采用了哪些实验方法？

研究采用了上下文感知平均消融和基于注意力的窥视技术进行消融实验。

AF1_llama模型在算术任务中的表现如何？

AF1_llama在直接算术任务中保持高准确率，但在需要语义理解的任务上表现不佳。

研究对大语言模型的算术推理有什么贡献？

研究为大语言模型中的算术推理和跨token计算机制提供了新的理解和方法论创新。

🏷️

继续阅读

硅基幻觉与碳基逆袭：大语言模型到底有没有真智能
大语言模型（LLM）与通用人工智能（AGI）存在本质区别。LLM缺乏真实的世界模型，无法理解符号与现实的对应关系，其输出仅为统计结果。当前AI的“智能涌现...
龙虾之父月烧940万元的token！要不是入职OpenAI还真用不起
虾爹的团队利用OpenAI的Codex进行软件开发，运行约100个AI代理以实现高效协作。尽管每月支出130万美元，他认为这比雇佣工程师更具成本效益和效果...
SmartPerfetto 两周更新：从 Perfetto AI Assistant 到可复用的 Trace 分析平台
SmartPerfetto 在过去两周内新增了多项功能，包括多 Trace 分析结果对比、SQL 证据来源处理和渲染管线教学。用户可通过 AI Assis...
从管人到管系统行为：AI时代技术管理者的全新认知框架
在AI时代，技术管理者的角色正从管理人转向管理系统行为。随着AI编程的普及，系统变得非确定性，技术管理者需理解和控制这种非确定性。未来的任务包括设计AI生...
词元token中转站如何把GPT与Claude算力压缩到3%成本?
本文探讨了中转站如何通过拆解高价AI模型的访问权限，提供低成本算力服务。中转站利用闲置资源重构API调用方式，降低开发者成本，但也带来数据隐私和安全风险。...
TIL-AI 工具普及后的组织观察
公司给所有人配了 AI 工具，个人效率确实提高了，但组织并没有自动学到东西。AI 使用到处都是、极度不均匀、大部分是隐性的，而且没有连接到组织学习的机制。