DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力
原文中文,约300字,阅读约需1分钟。发表于: 。提出了多个增强的解码器设计,并引入了 DrBERT(经过解码器优化的 BERT)作为一种新方法进行模型训练,通过微调对原始 BERT 模型的解码器进行改进,有效提高了模型性能而不增加推理时间和资源使用。
本文介绍了一种修改的transformer编码器--NarrowBERT,通过在预训练期间仅在屏蔽令牌上操作,增加了掩码语言模型预训练的吞吐量。NarrowBERT在推理时间的吞吐量提高了3.5倍,性能降低最小,并且在多个任务上与标准BERT相当。