💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

Transformer的核心是自注意力机制,其计算公式为:Attention(Q,K,V)=softmax(QKT/√dk)V,其中Q、K、V分别表示查询、键和值矩阵。

🎯

关键要点

  • Transformer的核心组件是自注意力机制。
  • 自注意力机制的计算公式为:Attention(Q,K,V)=softmax(QKT/√dk)V。
  • Q、K、V分别表示查询、键和值矩阵。
  • Q、K、V的维度为Rn×d。
➡️

继续阅读