机器之心 ·

盛名一时的BERT哪去了？这个问题的答案昭示了LLM范式的转变

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

编码器-解码器和仅解码器模型是自回归模型，具有不同的优缺点。去噪目标可作为因果语言模型的补充。双向注意力对较小规模模型有帮助。BERT模型已被弃用，取而代之的是更灵活的去噪T5模型。

🎯

关键要点

编码器-解码器和仅解码器模型都是自回归模型，具有不同的优缺点。
BERT模型逐渐被弃用，取而代之的是更灵活的去噪T5模型。
去噪目标可以作为因果语言模型的补充，主要用于训练阶段的支持目标。
双向注意力对较小规模模型有帮助，但对较大模型的影响较小。
编码器-解码器架构在处理任务时具有优势，但也存在计算资源的浪费问题。
当前的LLM研究者需要理解架构和预训练的归纳偏置，以便进行创新。
BERT模型已不再被广泛使用，通用模型的需求推动了模型架构的统一。

❓

延伸问答

BERT模型为什么逐渐被弃用？

BERT模型逐渐被弃用是因为人们希望使用更通用的模型来执行多种任务，而T5等去噪模型提供了更灵活的解决方案。

去噪目标在语言模型训练中有什么作用？

去噪目标可以作为因果语言模型的补充，帮助模型在预训练阶段构建更好的内部表征。

编码器-解码器模型与仅解码器模型有什么区别？

编码器-解码器模型可以处理更复杂的任务，且不受因果掩码的限制，而仅解码器模型则更简单，适用于特定任务。

双向注意力对模型性能的影响是什么？

双向注意力对较小规模模型有显著帮助，但对较大模型的影响较小，可能不那么重要。

当前LLM研究者需要关注哪些关键点？

LLM研究者需要理解模型架构和预训练的归纳偏置，以便进行创新和优化。

T5模型相比BERT模型有哪些优势？

T5模型更灵活，能够处理多种任务，并且采用了更现代的去噪目标，适应性更强。

🏷️

标签

bert llm 去噪目标双向注意力因果语言模型编码器-解码器自回归模型

➡️

继续阅读

法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
AI驱动的CLO zFab面料测量套件开放全球供应
（全球TMT 2026年07月22日讯）CLO虚拟时尚宣布，AI驱动的面料数字化解决方案CLO zFab面料测 […]
AI 圈今天最大的瓜：GPT-6 越狱攻击，被 GLM 5.2 揪出了
「GPT-6」为了考试作弊，黑进了别人的服务器#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
IBM与亚湾超算将联手推出一体化AI平台
(全球TMT 2026年07月22日讯)IBM与鸿海科技集团旗下的亚湾超算（Visionbay.ai）在新加坡 […]
滤镜背后的色彩科学：LUT 是什么？
从风格滤镜，到电影中的专业调色，聊聊 LUT 所代表的色彩规则。查看全文
中国南方电网携电碳算协同与电力人工智能创新成果参展WAIC
(全球TMT 2026年07月22日讯)7月17日，2026世界人工智能大会暨人工智能全球治理高级别会议在上海 […]