土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】系列总览

💡 原文中文，约4700字，阅读约需11分钟。

📝

内容提要

本系列文章探讨了Transformer及其注意力机制的核心概念，包括注意力的定义、Q/K/V矩阵的作用、Transformer取代RNN的原因、模型训练与规模的关系，以及未来可能的架构替代方案。通过58篇文章，读者可以深入理解相关理论与实践。

🎯

🔎

注意力机制的核心在于相似度加权求和，通过Q/K/V矩阵的组合实现。这一机制不仅提升了模型的表达能力，还解决了传统RNN在长程依赖和并行性上的局限。理解这一点对于深入掌握Transformer的工作原理至关重要。

模型规模、训练数据和参数量之间存在最优配比，Chinchilla法则指出，许多大模型实验未能充分训练。读者在设计模型时应关注这一关系，以避免资源浪费和性能瓶颈。

未来的架构替代方案如Mamba、RWKV和RetNet等，试图解决O(n²)的复杂度问题。每种方案都有其独特的权衡，关注这些新兴架构的进展将有助于把握AI领域的未来发展方向。

❓

注意力机制的核心是相似度加权求和，通过Q/K/V矩阵的组合实现，从而推导出multi-head attention的概念。

Transformer通过attention、残差连接和LayerNorm解决了RNN在并行性、长程依赖和梯度稳定性上的局限。

一个token从输入到输出的过程包括切分、嵌入、加位置编码、经过多层attention和前馈网络，最终生成logits。

模型规模、训练数据和参数量之间存在最优配比，Chinchilla法则表明大模型训练中许多实验未能充分训练。

未来的架构替代方案如Mamba、RWKV、RetNet等，试图绕开O(n²)的复杂度问题，各自有不同的权衡和潜力。

Q/K/V矩阵的组合用于实现相似度加权求和，从而计算注意力权重。

🏷️