本研究探讨大型语言模型(LLMs)推理长度与回答正确性之间的关系。结果显示,LLMs在简单问题上常常过度推理,而在复杂问题上推理不足。通过长度优化算法,研究表明可以在保持准确性的同时显著减少生成长度,强调推理行为中生成长度的重要性。
本研究提出了MAPS框架,全面映射大型语言模型中注意力头的功能,填补了以往仅关注推理行为的研究空白。通过评估20种操作和6种流行的LLM,MAPS的推断结果与输出高度相关,揭示了未充分研究的操作及其普遍性和架构偏差。
完成下面两步后,将自动完成登录并继续当前操作。