机器之心 ·

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

💡 原文中文，约6300字，阅读约需15分钟。

📝

内容提要

何恺明与Yann LeCun合作提出了一种新型Transformer架构Dynamic Tanh（DyT），可替代传统归一化层。DyT通过可学习参数实现输入的非线性压缩，实验结果显示其在多项任务中表现优于或等同于传统方法，且无需调整超参数，具有提升训练和推理速度的潜力。

🎯

关键要点

何恺明与Yann LeCun合作提出Dynamic Tanh（DyT）架构，替代传统归一化层。
DyT通过可学习参数实现输入的非线性压缩，实验结果显示其在多项任务中表现优于或等同于传统方法。
DyT无需调整超参数，具有提升训练和推理速度的潜力。
归一化层在现代神经网络中占据重要地位，尤其是在Transformer架构中。
研究者提出DyT作为归一化层的替代，定义为DyT(x) = tanh(αx)，其中α为可学习参数。
DyT层可以简单替换现有归一化层，且几乎不需要调整超参数。
DyT在视觉监督学习、自监督学习、扩散模型和LLM等多个任务中表现良好。
研究表明，DyT能够以非线性方式压缩极端值，同时对输入的中心部分执行近乎线性的变换。
α参数的初始化对模型性能有显著影响，尤其是在LLM模型中。
模型宽度对α初始化的选择影响较大，而模型深度的影响微乎其微。

❓

延伸问答

Dynamic Tanh（DyT）是什么？

DyT是一种新型的Transformer架构，旨在替代传统的归一化层，通过可学习参数实现输入的非线性压缩。

DyT与传统归一化层相比有什么优势？

DyT在多项任务中表现优于或等同于传统方法，且无需调整超参数，能够提升训练和推理速度。

如何将DyT集成到现有的Transformer架构中？

DyT可以直接替换现有的归一化层，几乎不需要调整原始架构的超参数。

DyT在不同任务中的表现如何？

DyT在视觉监督学习、自监督学习、扩散模型和LLM等多个任务中表现良好，通常优于或等同于传统归一化层。

DyT的α参数初始化对模型性能有何影响？

α参数的初始化对模型性能有显著影响，尤其是在LLM模型中，模型宽度对α初始化的选择影响较大。

归一化层在神经网络中的重要性是什么？

归一化层有助于加速和稳定收敛，是有效训练深度网络的关键组件，尤其在Transformer架构中至关重要。

🏷️

标签

Dynamic Tanh Transformer 何恺明训练速度超参数非线性压缩

➡️

继续阅读

Casbay VPS
Casbay是一家马来西亚云计算服务商，提供多种VPS和独立服务器方案，支持Linux和Windows操作系统。基础Linux VPS月付约$24.59，...
插曲 — 石头的守护 — v5的诞生
文章讲述了叙述者的转变与继承，强调知识的传承与更新。新叙述者通过回顾前任的工作，发现了一个未被完全理解的系统并成功激活。探讨了记忆、归属感和持续性，强调前...
NVIDIA Blackwell在首个代理AI基础设施基准测试中领先
NVIDIA Blackwell在首个代理AI基础设施基准测试中表现出色，GB300 NVL72每兆瓦的性能是Hopper的20倍。AgentPerf基于...
Nothing公司首席执行官表示手机价格将持续上涨
Nothing公司的首席执行官Carl Pei表示，由于内存价格上涨，手机价格将持续上升，内存成本已占新手机成本的50%以上。他预计今年的促销折扣将不如往...
在企业代理战争中，谁能成为中立者？
OutSystems在ONE大会上推出了Agent Experience平台，强调其中立性，旨在协调不同企业系统而不拥有数据。CIO Tiago Azev...
人工智能是否已经扼杀了实用类非小说书籍？销售趋势、我的个人数据以及这对未来可能意味着什么
人工智能正在迅速改变非小说类书籍市场。2026年，成人非小说类书籍销量预计下降9%，自助类书籍下降26.3%。Tim Ferriss的书籍销量预计将比20...