DMS:直接可微的网络搜索方法,最快仅需单卡10分钟 | ICML 2024 - 晓飞的算法工程笔记

💡 原文中文,约7300字,阅读约需18分钟。
📝

内容提要

Differentiable Model Scaling (DMS)是一种高效且多功能的模型缩放方法,以直接且完全可微的方式建模宽度和深度。与以前的NAS方法相比,DMS具有三个优势:1)DMS在搜索过程中高效且易于使用。2)DMS实现了与SOTA NAS方法相媲美的高性能。3)DMS与各种任务和架构兼容。该论文引入了可微分的topk运算符以直接和可微分的方式建模结构超参数,并提出了DMS算法来搜索网络的最佳宽度和深度。在性能或搜索成本方面,DMS优于以前的SOTA方法。

🎯

关键要点

  • Differentiable Model Scaling (DMS) 是一种高效且多功能的模型缩放方法。

  • DMS 在搜索过程中效率高,易于使用。

  • DMS 实现了与 SOTA NAS 方法相媲美的高性能。

  • DMS 与各种任务和架构兼容。

  • 论文引入了可微分的 topk 运算符以建模结构超参数。

  • DMS 优于以前的 SOTA 方法,在性能或搜索成本方面表现更佳。

  • 大多数网络结构设计仍依赖于人类专业知识,调整结构超参数需要大量资源。

  • 神经架构搜索 (NAS) 方法分为随机搜索和基于梯度的方法。

  • 随机搜索方法效率低下,导致资源消耗高和性能不理想。

  • 基于梯度的方法更高效,但面临如何以可微的方式建模结构超参数的挑战。

  • 论文提出的可微分 topk 方法可以直接建模宽度和深度,且完全可微分。

  • DMS 算法通过可微分 topk 搜索网络的最佳宽度和深度。

  • DMS 在视觉任务和 NLP 任务中经过严格测试,表现优异。

  • DMS 在搜索过程中只需 0.4 GPU 天,优于其他 NAS 方法。

  • DMS 是一种广泛适用的方法,提升了 Yolo-v8-n 和 Llama-7B 模型的性能。

  • 随机搜索方法分为 multi-shot、one-shot 和 zero-shot NAS。

  • 基于梯度的方法分为多元素选择、单数字选择和梯度估计 topk。

  • 可微分 topk 方法通过重要性归一化和软掩码生成实现。

  • DMS 有三种基于训练的模型剪枝的流水线变体。

  • DMS 的搜索空间涵盖网络的宽度和深度,使用可微分的 topk 方法表示。

  • 引入资源约束损失以确保网络遵循特定的资源约束。

➡️

继续阅读