Apple Machine Learning Research ·

指令跟随剪枝用于大型语言模型

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

随着大型语言模型的发展，本文提出了一种动态剪枝方法——指令跟随剪枝，能够根据用户指令动态选择模型参数。该方法通过优化稀疏掩码预测器和LLM，显著提升了推理效率和性能，实验结果在多个评估基准上表现优异。

🎯

🔎

指令跟随剪枝通过根据用户指令动态选择模型参数，显著提升了推理效率。这种方法不仅提高了模型在特定任务上的表现，还降低了权重加载成本，使得解码速度接近小规模密集模型，适合在资源有限的设备上使用。

传统的静态剪枝方法通常使用固定的剪枝掩码，而指令跟随剪枝则根据输入动态调整。这种灵活性使得模型能够更好地适应不同任务，提高了在数学和编码等领域的表现，显示出动态剪枝的潜力。

实验表明，3B激活模型在多个评估基准上表现优异，尤其是在特定领域的应用中，能够与更大规模的9B模型相媲美。这提示我们，动态剪枝不仅能提升性能，还能在实际应用中实现更高的效率。

❓

指令跟随剪枝是一种动态剪枝方法，根据用户指令动态选择模型参数，以提高推理效率和性能。

通过输入依赖的剪枝掩码，指令跟随剪枝动态选择与任务相关的模型参数，从而显著降低权重加载成本。

与传统的静态剪枝方法不同，指令跟随剪枝采用输入依赖的动态剪枝掩码，能够根据用户指令实时调整模型参数。

实验结果显示，3B激活模型在数学和编码领域比3B密集模型提高了5-8个绝对点，并与9B模型的性能相当。

该方法适用于需要高效推理的任务，特别是在设备端推理时，可以显著提高解码效率。

指令跟随剪枝通过优化稀疏掩码预测器，动态选择与特定任务相关的模型参数，从而提高模型的适应性。

🏷️