最后一遍学习Transformer

最后一遍学习Transformer

💡 原文中文,约6400字,阅读约需16分钟。
📝

内容提要

本文介绍了Transformer模型的结构与工作原理,包括输入嵌入、位置编码、自注意力机制和多头注意力等模块,强调了缩放点积注意力的重要性及其通过交叉熵损失函数进行训练的方法。

🎯

关键要点

  • Transformer模型的结构包括输入嵌入、位置编码、自注意力机制和多头注意力等模块。
  • 缩放点积注意力通过除以dk来防止数值过大导致梯度消失。
  • 自注意力机制通过Q、K、V矩阵计算注意力强度,并通过Softmax得到最终输出。
  • 多头注意力通过不同的权重矩阵进行多次自注意力计算,最后拼接结果。
  • Masked Multi-Head Attention用于防止模型看到未来的token。
  • Add & Norm模块通过残差连接和层归一化提高模型稳定性。
  • Feed Forward模块由两层全连接层组成,第一层使用ReLU激活函数。
  • Encoder由多个编码块组成,Decoder则包含两个多头注意力层和一个Softmax层。
  • 训练目标是通过交叉熵损失函数最小化预测概率与真实标签之间的差异。
  • 极大似然估计用于优化模型参数,使得训练数据出现的概率最大化。
➡️

继续阅读