从 transformer 到 FlashAttention 再到 PagedAttention(1)

从 transformer 到 FlashAttention 再到 PagedAttention(1)

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

本文总结了Transformer模型的结构,重点介绍了编码器和解码器的输入输出关系。编码器处理用户输入的token并生成中间层输出;解码器根据编码器的输出逐步生成新的token。讨论了Masked Multi-Head Attention的作用,强调其对解码过程中因果性的影响,并指出GPT与Transformer的区别,GPT仅包含解码器并应用masked机制。

🎯

关键要点

  • Transformer模型由编码器和解码器组成,编码器处理用户输入的token并生成中间层输出。

  • 编码器的输入是用户输入的token,输出作为解码器的输入。

  • 解码器逐步生成新的token,输入包括之前生成的token和特殊标记<SOS>。

  • Masked Multi-Head Attention在解码过程中起到关键作用,确保因果性,防止未来信息泄露。

  • GPT模型仅包含解码器,使用masked机制,用户输入的token仅考虑其之前的token。

延伸问答

Transformer模型的基本结构是什么?

Transformer模型由编码器和解码器组成,编码器处理用户输入的token并生成中间层输出,解码器根据编码器的输出逐步生成新的token。

编码器和解码器之间的输入输出关系是怎样的?

编码器的输入是用户输入的token,输出作为解码器的输入,解码器逐步生成新的token,输入包括之前生成的token和特殊标记<SOS>。

Masked Multi-Head Attention在解码过程中有什么作用?

Masked Multi-Head Attention确保因果性,防止未来信息泄露,从而保证解码过程的正确性。

GPT与Transformer有什么区别?

GPT仅包含解码器,并应用masked机制,用户输入的token仅考虑其之前的token,而Transformer的编码器没有masked机制。

解码器的输入是如何生成的?

解码器的输入包括最低层的<SOS>标记和之前生成的token,逐步生成新的token。

为什么在解码过程中需要使用masked机制?

使用masked机制是为了确保解码过程中的因果性,避免模型在生成token时泄露未来的信息。

🏷️

标签

➡️

继续阅读