重新思考注意力:探索浅层前馈神经网络作为 Transformer 中注意力层的替代方案
📝
内容提要
本研究通过分析使用标准的浅层前馈网络来模拟原始 Transformer 模型中的注意力机制的有效性,采用知识蒸馏的方法,用简单的前馈网络替换 Transformer 中的关键元素,并在 IWSLT2017 数据集上进行实验,发现这种 “无注意力 Transformer”...
🏷️
标签
➡️