小红花·文摘

研究表明，大语言模型在解心算题时，计算主要集中在最后一个token上，表明模型在特定任务中不需全局信息。通过消融实验，揭示了模型内部的稀疏子图结构，强调了输入特定计算与通用计算的分离。