土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】17｜Causal Mask：让模型只看过去不看未来

💡 原文中文，约26300字，阅读约需63分钟。

📝

内容提要

因果掩码是自回归生成模型中的关键技术，确保模型在训练时仅依赖过去的信息，解决了Transformer在并行处理与生成任务之间的矛盾。通过将上三角部分设为负无穷，因果掩码确保模型在生成时不“偷看”未来的token。这一技术是现代大语言模型（如GPT系列）的基础，提升了模型训练的效率和规模。

🎯

关键要点

因果掩码是自回归生成模型中的关键技术，确保模型在训练时仅依赖过去的信息。
因果掩码通过将上三角部分设为负无穷，确保模型在生成时不“偷看”未来的token。
因果掩码解决了Transformer在并行处理与生成任务之间的矛盾，提升了模型训练的效率和规模。
自回归模型的定义是将整个序列的联合概率分解为条件概率的乘积，模型在预测时只能见到过去的信息。
因果掩码强制让self-attention在结构上变得因果，使Transformer能够像RNN一样满足因果性。
Teacher forcing是一种训练技巧，确保模型在每一步预测时使用真实的历史信息。
因果掩码与teacher forcing结合，使得Transformer的训练能够实现并行化，显著提高训练速度。
因果掩码的实现形式是一个n × n的矩阵，确保每个位置的注意力分布只在对角线及以下。
Encoder self-attention不使用因果掩码，Decoder self-attention必须使用因果掩码，Decoder cross-attention则需要padding mask。
Prefix LM是一种部分因果的设计，前半段双向，后半段因果，适用于特定任务。
推理时的KV cache与因果掩码的关系，推理过程天然是因果的，不需要显式的因果掩码。
因果掩码的设计影响了模型的表示结构，导致了attention sink现象的出现。
长序列下因果掩码的开销显著，需采用优化策略如常量化、按需计算等。
常见的错误包括在BERT中误加因果掩码、encoder-decoder模型中cross-attention错误加因果掩码等。
因果掩码是Transformer时代所有自回归大模型存在的工程基础，定义了自回归的精确语义。

❓

延伸问答

因果掩码在自回归生成模型中的作用是什么？

因果掩码确保模型在训练时仅依赖过去的信息，避免在生成时“偷看”未来的token，从而解决了Transformer在并行处理与生成任务之间的矛盾。

因果掩码是如何实现的？

因果掩码通过将上三角部分设为负无穷，确保模型在生成时只关注对角线及以下的token，从而形成合法的注意力分布。

因果掩码如何提高模型训练的效率？

因果掩码结合teacher forcing，使得Transformer的训练能够实现并行化，显著提高训练速度，避免了串行训练的低效。

自回归模型的定义是什么？

自回归模型是将整个序列的联合概率分解为条件概率的乘积，模型在预测时只能见到过去的信息。

推理时因果掩码的作用是什么？

推理时因果掩码在prefill阶段需要使用，以确保模型在处理长prompt时只看到之前的token，保持训练与推理的一致性。

因果掩码与teacher forcing的关系是什么？

因果掩码与teacher forcing结合，确保模型在每一步预测时使用真实的历史信息，从而提高训练的稳定性和效率。

🏷️

继续阅读

首尔的目标：NVIDIA与韩国如何共同构建AI的未来
NVIDIA创始人兼首席执行官黄仁勋访问韩国，强调AI供应链的重要性，并指出韩国在机器人和物理AI领域的潜力。他认为韩国是AI和游戏的中心，未来将有更多投资机会。
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
流媒体的未来：要么拿出保证，要么我不买账
流媒体正在改变视频广告购买方式，通过数据分析和AI技术优化广告投放，确保品牌投资的有效性。出版商需证明内容价值以获得更高定价，市场需要机制区分有效库存，A...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...