土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】12｜Bahdanau Attention：注意力的早期形态

💡 原文中文，约24800字，阅读约需59分钟。

📝

内容提要

本文回顾了2014年Bahdanau等人提出的注意力机制在神经机器翻译中的应用。该机制通过动态计算上下文向量，克服了固定长度向量的局限性，显著提升了长句翻译的质量。Bahdanau的研究为现代自然语言处理中的注意力机制奠定了基础，尽管后来被Transformer取代，但其核心思想仍然具有深远影响。

🎯

🔎

Bahdanau等人在2014年提出的注意力机制是神经机器翻译(NMT)领域的重要里程碑。它的出现正值固定长度上下文向量的局限性显现之际，尤其是在处理长句时。通过动态计算上下文向量，Bahdanau的模型显著提升了翻译质量，为后续的Transformer模型奠定了基础。

Bahdanau的注意力机制通过让解码器在每一步动态选择源句的相关部分，克服了固定上下文向量的局限。这种动态上下文向量的设计使得模型能够更灵活地处理不同的翻译需求，尤其是在长句翻译中，显著提高了BLEU分数，展示了其在实际应用中的有效性。

尽管Bahdanau的注意力机制在历史上被Transformer取代，但其核心思想依然影响着现代自然语言处理。后续的研究，如Luong提出的多种打分函数，都是在Bahdanau的基础上进行改进和优化，显示了这一机制在NMT领域的重要性和延续性。

❓

Bahdanau注意力机制的核心思想是让解码器在每一步动态选择源句的相关部分，而不是依赖一个固定的上下文向量。

Bahdanau通过动态计算上下文向量，使解码器在每个时间步重新选择源句的相关信息，从而克服了固定长度向量的局限性。

尽管Bahdanau的注意力机制在历史上被Transformer取代，但其核心思想仍然对现代自然语言处理产生深远影响，尤其是Q/K/V的抽象源自于此。

Bahdanau的打分函数定义为e_{t,i} = vᵀ tanh(W₁ s_{t-1} + W₂ h_i)，其中s_{t-1}是解码器的上一时刻隐藏状态，h_i是编码器的隐藏状态。

Bahdanau注意力机制在神经机器翻译中显著提升了长句翻译的质量，尤其是在处理超过50词的长句时，BLEU分数保持稳定。

常见错误包括忘记使用unsqueeze(1)来调整维度、mask的极小值设置不当，以及attention pooling方向搞错等。

🏷️