小红花·文摘

本文介绍了BERT预训练模型的原理和应用，通过联合左右上下文预训练深度双向表示模型，可用于广泛任务。BERT的输入经过分词和嵌入层处理，通过Encoder Layer堆叠。输出包括pooler output和sequence output，适用于句子级和词级任务。预训练任务包括MLM和NSP。下游任务中可使用少量标注数据微调BERT。