Transformer 学习笔记

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

Transformer模型具有全连接的自注意力、没有梯度消失问题和并行计算的优势。大模型中包含多个Transformer,每个Transformer由多个Encoder Layer和Decoder Layer组成。Encoder负责提取输入序列特征,Decoder用于生成输出序列。每个Encoder Layer包含注意力层和前馈全连接层,每个Decoder Layer包含自注意力层、编码器-解码器互注意力层和前馈全连接层。Word Embedding矩阵用于将单词符号转换为词向量。多头注意力机制可以提升模型表达能力,常用的头数为8或12。

🎯

关键要点

  • Transformer模型具有全连接的自注意力机制,能够捕捉全局上下文信息。
  • Transformer解决了RNN的梯度消失问题,支持并行计算,充分利用GPU能力。
  • 大模型由多个Transformer组成,每个Transformer包含多个Encoder Layer和Decoder Layer。
  • BERT模型由多个Transformer编码器堆叠构成,GPT-3模型由多个Transformer解码器堆叠组成。
  • Encoder负责提取输入序列特征,Decoder用于生成输出序列。
  • 每个Encoder Layer包含自注意力层和前馈全连接层,Decoder Layer包含自注意力层、编码器-解码器互注意力层和前馈全连接层。
  • Word Embedding矩阵将单词符号转换为词向量,影响Self-Attention机制的计算。
  • 多头注意力机制提升模型表达能力,常用头数为8或12,能够关注不同位置的语义信息。
➡️

继续阅读