WTConv:小参数大感受野,基于小波变换的新型卷积 | ECCV'24 - 晓飞的算法工程笔记
💡
原文中文,约6200字,阅读约需15分钟。
📝
内容提要
研究者尝试通过增加CNN的卷积核大小来模拟ViTs的全局感受野,但效果有限。论文提出用小波变换(WT)实现大感受野,避免过参数化。新方法WTConv层可替代现有架构,提升多频响应能力,适用于图像分类和语义分割。WTConv通过小波分解和小卷积核扩展感受野,参数增长缓慢,增强对低频信息的响应,提高CNN的鲁棒性和形状识别能力。
🎯
关键要点
-
研究者尝试通过增加CNN的卷积核大小来模拟ViTs的全局感受野,但效果有限。
-
论文提出用小波变换(WT)实现大感受野,避免过参数化。
-
新方法WTConv层可替代现有架构,提升多频响应能力,适用于图像分类和语义分割。
-
WTConv通过小波分解和小卷积核扩展感受野,参数增长缓慢。
-
WTConv增强对低频信息的响应,提高CNN的鲁棒性和形状识别能力。
-
WTConv作为深度可分离卷积的替代品,可以在任何CNN架构中直接使用。
-
论文展示了WTConv在ConvNeXt和MobileNetV2架构中的有效性。
-
WTConv在多个关键计算机视觉任务中提升了CNN的结果。
-
小波变换的每一级增加感受野大小,同时仅小幅增加可训练参数数量。
-
WTConv层的构建旨在比标准卷积更好地捕捉低频信息。
➡️