小红花·文摘

因果掩码是自回归生成模型中的关键技术，确保模型在训练时仅依赖过去的信息，解决了Transformer在并行处理与生成任务之间的矛盾。通过将上三角部分设为负无穷，因果掩码确保模型在生成时不“偷看”未来的token。这一技术是现代大语言模型（如GPT系列）的基础，提升了模型训练的效率和规模。