Apple Machine Learning Research ·

构造电路放大：通过针对性子网络更新提升大型语言模型的数学推理能力

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

研究表明，大型语言模型（LLMs）内部存在稀疏子网络，称为电路，负责特定任务。通过微调这些电路可以提升模型性能。我们提出了一种新方法——构造电路放大，识别关键标记和相关组件，仅更新这些部分。在数学推理中，该方法使准确率提高了11.4%，仅修改了1.59%的组件，对其他能力影响较小。结果表明，针对性增强能力是可行的。

🎯

关键要点

大型语言模型内部存在稀疏子网络，称为电路，负责特定任务。
微调电路可以提升模型性能。
提出了一种新方法——构造电路放大，识别关键标记和相关组件，仅更新这些部分。
在数学推理中，该方法使准确率提高了11.4%，仅修改了1.59%的组件。
对其他能力的影响较小，结果表明针对性增强能力是可行的。

🏷️

继续阅读

88岁图灵奖得主，用Claude一小时破解30年数学悬案
88岁图灵奖得主高德纳对Claude AI在1小时内解决他研究30年的三维图论问题感到震惊。Claude通过结构性思维而非暴力搜索，展现了逻辑推理和创造性...
提高人工智能模型解释其预测能力
麻省理工学院研究人员开发了一种新方法，利用深度学习模型提取概念，以提高计算机视觉模型的准确性和可解释性。该方法通过限制使用的概念数量，确保选择最相关的概念...
Viettel Solutions与Aduna Global在MWC 2026签署网络API服务框架协议
Viettel Solutions与Aduna Global在巴塞罗那签署网络API服务框架协议，旨在简化企业和开发者对先进网络能力的访问，符合GSMA ...
AI Infra Brief｜推理主导 AI 支出，6G 与主权风险更新（2026.03.07）
文章总结了2026年3月5日至7日AI领域的重大变化，包括推理占AI预算的55-85%、后端LLM角色薪资溢价30-50%、云巨头用AI替代QA团队等。预...
Umair Shahid：将PostgreSQL高可用性视为分层设计
PostgreSQL的高可用性应采用分层设计，首先明确故障范围、恢复点目标（RPO）和恢复时间目标（RTO）。从单主节点开始，逐步引入离线备份、WAL归档...
语言模型是商品吗？
近年来，语言模型的获取方式变得几乎免费，成为新兴商品。然而，可靠性、隐私保护和特定领域适应性仍是高端产品的特点，使得“商品”一词在语言模型中存在争议。

构造电路放大：通过针对性子网络更新提升大型语言模型的数学推理能力

内容提要

关键要点

标签

继续阅读