小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨大型语言模型（LLMs）推理长度与回答正确性之间的关系。结果显示，LLMs在简单问题上常常过度推理，而在复杂问题上推理不足。通过长度优化算法，研究表明可以在保持准确性的同时显著减少生成长度，强调推理行为中生成长度的重要性。

Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and Correctness in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了MAPS框架，全面映射大型语言模型中注意力头的功能，填补了以往仅关注推理行为的研究空白。通过评估20种操作和6种流行的LLM，MAPS的推断结果与输出高度相关，揭示了未充分研究的操作及其普遍性和架构偏差。

Inferring the Function of Attention Heads from Parameters

BriefGPT - AI 论文速递 ·