DMS:直接可微的网络搜索方法,最快仅需单卡10分钟 | ICML 2024 - 晓飞的算法工程笔记
内容提要
Differentiable Model Scaling (DMS)是一种高效且多功能的模型缩放方法,以直接且完全可微的方式建模宽度和深度。与以前的NAS方法相比,DMS具有三个优势:1)DMS在搜索过程中高效且易于使用。2)DMS实现了与SOTA NAS方法相媲美的高性能。3)DMS与各种任务和架构兼容。该论文引入了可微分的topk运算符以直接和可微分的方式建模结构超参数,并提出了DMS算法来搜索网络的最佳宽度和深度。在性能或搜索成本方面,DMS优于以前的SOTA方法。
关键要点
-
Differentiable Model Scaling (DMS) 是一种高效且多功能的模型缩放方法。
-
DMS 在搜索过程中效率高,易于使用。
-
DMS 实现了与 SOTA NAS 方法相媲美的高性能。
-
DMS 与各种任务和架构兼容。
-
论文引入了可微分的 topk 运算符以建模结构超参数。
-
DMS 优于以前的 SOTA 方法,在性能或搜索成本方面表现更佳。
-
大多数网络结构设计仍依赖于人类专业知识,调整结构超参数需要大量资源。
-
神经架构搜索 (NAS) 方法分为随机搜索和基于梯度的方法。
-
随机搜索方法效率低下,导致资源消耗高和性能不理想。
-
基于梯度的方法更高效,但面临如何以可微的方式建模结构超参数的挑战。
-
论文提出的可微分 topk 方法可以直接建模宽度和深度,且完全可微分。
-
DMS 算法通过可微分 topk 搜索网络的最佳宽度和深度。
-
DMS 在视觉任务和 NLP 任务中经过严格测试,表现优异。
-
DMS 在搜索过程中只需 0.4 GPU 天,优于其他 NAS 方法。
-
DMS 是一种广泛适用的方法,提升了 Yolo-v8-n 和 Llama-7B 模型的性能。
-
随机搜索方法分为 multi-shot、one-shot 和 zero-shot NAS。
-
基于梯度的方法分为多元素选择、单数字选择和梯度估计 topk。
-
可微分 topk 方法通过重要性归一化和软掩码生成实现。
-
DMS 有三种基于训练的模型剪枝的流水线变体。
-
DMS 的搜索空间涵盖网络的宽度和深度,使用可微分的 topk 方法表示。
-
引入资源约束损失以确保网络遵循特定的资源约束。