Apple Machine Learning Research ·

建设性电路放大：通过针对性子网络更新提高大语言模型中的数学推理

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文提出了一种新方法“建设性电路放大”，通过识别模型推理中的关键标记和相关组件，针对性地更新大语言模型（LLMs）的特定电路。这种方法在数学推理中提高了准确率，最多可达11.4%，同时仅修改了1.59%的模型组件，对其他能力影响最小，表明选择性更新稀疏组件可以有效增强特定能力。

🎯

🔎

建设性电路放大方法通过针对性更新模型的特定电路，展示了在大语言模型中提升数学推理能力的新思路。这种方法不仅提高了准确率，还保持了其他能力的稳定性，表明在模型优化中可以采取更为精细的策略。

该方法仅修改1.59%的模型组件，却能实现高达11.4%的准确率提升，显示出选择性更新的有效性。这种策略可能为未来的模型训练和优化提供新的方向，尤其是在资源有限的情况下。

尽管该方法在数学推理上取得了显著进展，但对其他能力的影响最小。这提示研究者在进行模型更新时，可以更专注于特定任务的优化，而不必担心对整体性能造成负面影响。

❓

建设性电路放大是一种新方法，通过识别模型推理中的关键标记和相关组件，针对性地更新大语言模型的特定电路。

该方法在数学推理中提高了准确率，最多可达11.4%，通过仅修改1.59%的模型组件实现。

选择性更新稀疏组件可以有效增强特定能力，同时对其他能力的影响最小。

该方法对其他能力的影响最小，表明其专注于特定能力的增强。

通过分析模型推理轨迹，识别出与特定任务相关的关键标记和组件。

该方法适用于多个大语言模型，能够在不同模型上提高数学推理的准确性。

🏷️