Swish-T: 提升 Swish 激活函数的性能的 Tanh 偏置
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
研究人员提出了一种改进的非单调激活函数Swish-T系列,通过在原始Swish函数中添加Tanh偏置来定义Swish-T,该函数在不同任务中表现出卓越性能,并展示了更广泛的负值接受范围和更平滑的非单调曲线。研究结果表明Swish-T系列在多个模型和基准数据集上都具有优越性能。
🎯
关键要点
- 研究人员提出了一种改进的非单调激活函数Swish-T系列。
- Swish-T通过在原始Swish函数中添加Tanh偏置来定义。
- Swish-T系列在不同任务中表现出卓越性能,具有更广泛的负值接受范围和更平滑的非单调曲线。
- Swish-T$_{extbf {C}}$是最终提出的函数,Swish-T和Swish-T$_{extbf {B}}$是其副产品。
- 消融研究表明Swish-T$_{extbf {C}}$作为非参数函数仍能实现高性能。
- Swish-T系列在多个模型和基准数据集上验证了其优越性,包括MNIST、Fashion MNIST、SVHN、CIFAR-10和CIFAR-100。
- 相关代码已公开可用。
🏷️
标签
➡️