Transformer温习整理

Transformer温习整理

💡 原文中文,约10800字,阅读约需26分钟。
📝

内容提要

Transformer是一种基于自注意力机制的神经网络架构,用于自然语言处理任务。它使用自注意力机制来捕捉输入数据内部元素之间的相关性,具有较好的特征抽取能力。Transformer的训练过程包括前向传播、计算损失、反向传播和参数更新。

🎯

关键要点

  • Transformer是一种基于自注意力机制的神经网络架构,首次提出于2017年。
  • Transformer改变了自然语言处理领域,取代了传统的循环神经网络和卷积神经网络。
  • Transformer的发展历程包括多个重要模型的推出,如BERT和GPT系列。
  • 自注意力机制模仿人类注意力,通过选择性关注重要信息来捕捉数据内部元素之间的相关性。
  • Transformer使用Self Attention机制,能够捕获句子中长距离的相互依赖特征。
  • Transformer的Encoder和Decoder结构由多个相同模块堆叠而成,包含多头注意力层和前馈神经网络层。
  • Transformer中的位置编码使用正弦和余弦函数,帮助模型理解词项之间的距离关系。
  • 残差连接和层归一化提高了模型的训练速度和稳定性,缓解了梯度消失或爆炸的问题。
  • Transformer使用ReLU作为激活函数,具有计算简单和缓解梯度消失的优点,但存在死亡ReLU问题。
  • Transformer相比于RNN/LSTM具有并行计算能力和更好的特征抽取能力。
  • 多头注意力机制允许模型同时学习不同子空间的信息,捕捉更丰富的特征。
  • Transformer的注意力计算使用点乘而非加法,能够更好地捕捉token之间的关联性。
  • Decoder模块使用掩码多头注意力层,防止未来信息干扰当前的预测。
  • Transformer的损失函数通常为交叉熵损失,训练过程包括前向传播、损失计算和反向传播。
  • 学习率预热和Dropout是Transformer训练中的重要策略,Dropout在推理时需禁用。
  • 位置编码的优缺点包括可解释性强和泛化能力,但在处理超长序列时可能表现不佳。
  • LayerNorm在Transformer中用于稳定训练,BatchNorm则不适合处理序列数据。
  • WordPiece和BPE是用于文本处理的子词分割算法,广泛应用于自然语言处理任务。
➡️

继续阅读