晓飞的算法工程笔记 ·

DMS：直接可微的网络搜索方法，最快仅需单卡10分钟 | ICML 2024 - 晓飞的算法工程笔记

💡 原文中文，约7300字，阅读约需18分钟。

📝

内容提要

Differentiable Model Scaling (DMS)是一种高效且多功能的模型缩放方法，以直接且完全可微的方式建模宽度和深度。与以前的NAS方法相比，DMS具有三个优势：1）DMS在搜索过程中高效且易于使用。2）DMS实现了与SOTA NAS方法相媲美的高性能。3）DMS与各种任务和架构兼容。该论文引入了可微分的topk运算符以直接和可微分的方式建模结构超参数，并提出了DMS算法来搜索网络的最佳宽度和深度。在性能或搜索成本方面，DMS优于以前的SOTA方法。

🎯

关键要点

Differentiable Model Scaling (DMS) 是一种高效且多功能的模型缩放方法。
DMS 在搜索过程中效率高，易于使用。
DMS 实现了与 SOTA NAS 方法相媲美的高性能。
DMS 与各种任务和架构兼容。
论文引入了可微分的 topk 运算符以建模结构超参数。
DMS 优于以前的 SOTA 方法，在性能或搜索成本方面表现更佳。
大多数网络结构设计仍依赖于人类专业知识，调整结构超参数需要大量资源。
神经架构搜索 (NAS) 方法分为随机搜索和基于梯度的方法。
随机搜索方法效率低下，导致资源消耗高和性能不理想。
基于梯度的方法更高效，但面临如何以可微的方式建模结构超参数的挑战。
论文提出的可微分 topk 方法可以直接建模宽度和深度，且完全可微分。
DMS 算法通过可微分 topk 搜索网络的最佳宽度和深度。
DMS 在视觉任务和 NLP 任务中经过严格测试，表现优异。
DMS 在搜索过程中只需 0.4 GPU 天，优于其他 NAS 方法。
DMS 是一种广泛适用的方法，提升了 Yolo-v8-n 和 Llama-7B 模型的性能。
随机搜索方法分为 multi-shot、one-shot 和 zero-shot NAS。
基于梯度的方法分为多元素选择、单数字选择和梯度估计 topk。
可微分 topk 方法通过重要性归一化和软掩码生成实现。
DMS 有三种基于训练的模型剪枝的流水线变体。
DMS 的搜索空间涵盖网络的宽度和深度，使用可微分的 topk 方法表示。
引入资源约束损失以确保网络遵循特定的资源约束。

❓

延伸问答

DMS方法的主要优势是什么？

DMS方法在搜索过程中效率高、易于使用，并且实现了与SOTA NAS方法相媲美的高性能，兼容多种任务和架构。

DMS如何建模网络的宽度和深度？

DMS通过引入可微分的topk运算符，以直接和可微分的方式建模网络的宽度和深度。

DMS在搜索效率上与其他NAS方法相比如何？

DMS在搜索过程中只需0.4 GPU天，优于其他NAS方法，且在性能或搜索成本方面表现更佳。

DMS算法的应用场景有哪些？

DMS算法经过严格测试，适用于视觉任务和自然语言处理（NLP）任务。

DMS如何解决结构超参数建模的挑战？

DMS通过可微分的topk方法，直接建模结构超参数，克服了以往方法的不可微分问题。

DMS的搜索空间包含哪些内容？

DMS的搜索空间涵盖了网络的宽度和深度，使用可微分的topk方法表示。

🏷️