土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】30｜预训练目标：BERT、GPT、T5 其实在学三种不同的事

💡 原文中文，约7900字，阅读约需19分钟。

📝

内容提要

本文探讨了预训练模型的三种主要目标：自回归语言建模（GPT）、掩码语言建模（BERT）和去噪序列到序列（T5/BART）。每种方法在训练任务上有所不同，导致模型在生成、理解和条件生成能力上的差异。GPT专注于续写，BERT擅长理解，而T5/BART兼顾生成与理解。最终，GPT因其统一接口和扩展性成为主流。

🎯

关键要点

预训练模型的目标包括自回归语言建模（GPT）、掩码语言建模（BERT）和去噪序列到序列（T5/BART）。
自回归语言建模（CLM）专注于预测下一个 token，适合生成任务。
掩码语言建模（MLM）通过遮住部分 token 来学习双向理解，适合理解任务。
去噪序列到序列（Denoising Seq2Seq）通过恢复被破坏的输入来进行条件生成。
GPT 的优势在于训练和推理一致，适合处理各种文本数据。
BERT 的双向理解能力强，但训练和生成接口不一致，限制了其生成能力。
T5/BART 兼顾生成与理解，但结构和工程复杂度较高。
GPT 路线因其统一接口和扩展性成为主流，适合多任务处理。
不同预训练目标影响微调习惯，BERT 更适合挂任务头，GPT 更适合提示接口，Seq2Seq 更适合显式输入输出分离。

🔎

延伸解读

预训练目标的影响

预训练模型的目标直接影响其后续的微调和应用方式。GPT、BERT和T5/BART各自的训练目标决定了它们在生成、理解和条件生成任务上的表现差异。理解这些差异有助于选择合适的模型来应对特定的任务需求。

模型架构与任务适配

不同的预训练目标导致模型架构的选择和任务适配方式的不同。GPT的自回归结构适合生成任务，而BERT的双向结构则更适合理解任务。选择合适的模型架构可以提高任务执行的效率和效果。

GPT的主流地位原因

GPT因其统一的接口和扩展性逐渐成为主流。它的训练和推理过程一致，使得在处理多种文本数据时更加高效。随着模型规模的扩大，这种优势愈发明显，推动了其在行业中的广泛应用。

🏷️