重新思考注意力:探索浅层前馈神经网络作为 Transformer 中注意力层的替代方案

📝

内容提要

本研究通过分析使用标准的浅层前馈网络来模拟原始 Transformer 模型中的注意力机制的有效性,采用知识蒸馏的方法,用简单的前馈网络替换 Transformer 中的关键元素,并在 IWSLT2017 数据集上进行实验,发现这种 “无注意力 Transformer”...

🏷️

标签

➡️

继续阅读