量子位 ·

推理token减少46%！Meta新方法缩短思维链，告别重复推导

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

Meta与多所大学合作提出了一种元认知复用机制，通过回顾推理过程提炼简洁的“行为”，显著减少推理token使用量，最多可减少46%。该方法在数学测试中保持准确率不变，提升了模型的推理效率。

🎯

关键要点

Meta与多所大学合作提出元认知复用机制，显著减少推理token使用量，最多可减少46%。
该机制通过回顾推理过程提炼简洁的“行为”，存储于“行为手册”中，避免重复推导。
现有大型语言模型在处理复杂任务时存在推理步骤重复的问题，导致token用量增加和推理延迟。
元认知复用机制让模型提取可复用的推理步骤，转化为标准化“行为”，提高推理效率。
研究团队在MATH和AIME等数学测试中验证了该机制的有效性，保持准确率不变。
行为条件推理（BCI）场景中，使用更少token达到与基线相当或更优的性能。
行为引导的自我改进方法让模型对自身推理轨迹进行批判和修正，提升准确率最多10%。
行为条件监督微调（BC-SFT）有效将高质量行为融入模型参数，提升模型推理能力。

❓

延伸问答

Meta的新方法如何减少推理token的使用量？

Meta通过元认知复用机制，让模型回顾推理过程，提炼简洁的“行为”，存储于“行为手册”中，从而减少最多46%的推理token使用量。

该机制在数学测试中的表现如何？

该机制在MATH和AIME等数学测试中保持了准确率不变，同时显著减少了推理token的使用。

什么是行为条件推理（BCI）？

行为条件推理（BCI）是一种应用场景，允许模型在使用更少token的情况下，达到与基线相当或更优的推理性能。

元认知复用机制的核心步骤是什么？

核心步骤包括生成解决方案、进行反思评估、提炼可复用行为，并将其转化为标准化的“行为条目”。

行为引导的自我改进方法有什么优势？

该方法允许模型对自身推理轨迹进行批判和修正，最多可将准确率提升10%。

行为条件监督微调（BC-SFT）如何提升模型能力？

BC-SFT通过将高质量行为融入模型参数中，更有效地将不具备推理能力的模型转化为具备推理能力的模型。

🏷️

继续阅读

教你薅token：构建agent无关的AI工作流
目前使用AI的主要痛点是高昂的账单。用户可以通过维护良好的文档来优化使用流程，减少对高价Agent的依赖。合理利用免费资源可以节省开支，维护好文档有助于降...
浏览器指纹与反爬虫：TLS JA3、HTTP/2指纹原理及绕过方法
本文讨论了数据抓取中的反爬虫技术，重点介绍了浏览器指纹，包括TLS指纹和HTTP/2指纹。通过分析请求头、TLS握手和HTTP/2设置，服务器能够识别客户...
摩根士丹利称搭载英伟达RTX SPARK N1X芯片的PC售价将达到2,900美元
摩根士丹利预测，搭载英伟达RTX SPARK N1X芯片的PC售价将达到2900美元，N1芯片设备售价为1800美元。这些高性能芯片主要面向开发者和内容创...
真重置！Codex因昨日连续发生的多次故障重置本周额度继续向后顺延7天
OpenAI的Codex于早上8点半完成了本周的额度重置，以补偿前一天的故障，这些故障影响了ChatGPT的登录和API调用。重置仅限于付费用户，下一次重...
豆包将降低基础功能体验推动用户购买专业版？字节发布公告称相关说法不实
字节跳动的人工智能助手豆包计划推出专业版，提供软件开发和数据分析等服务。针对微博上的收费谣言，豆包澄清将继续提供免费服务，基础功能不受影响，专业版也会有限...
研究人员不满微软安全团队的做法公开爆出VS Code漏洞可窃取私有凭证
安全研究员Ammar Askar披露了Visual Studio Code中的高危漏洞，该漏洞可窃取GitHub OAuth Token，导致开发者仓库受...