DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种修改的transformer编码器--NarrowBERT,通过在预训练期间仅在屏蔽令牌上操作,增加了掩码语言模型预训练的吞吐量。NarrowBERT在推理时间的吞吐量提高了3.5倍,性能降低最小,并且在多个任务上与标准BERT相当。

🎯

关键要点

  • 本文介绍了一种修改的transformer编码器--NarrowBERT。
  • NarrowBERT通过在预训练期间仅在屏蔽令牌上操作,增加了掩码语言模型预训练的吞吐量。
  • NarrowBERT在推理时间的吞吐量提高了3.5倍,性能降低最小。
  • 在多个任务上,NarrowBERT的表现与标准BERT相当,包括IMDB、亚马逊评论分类和CoNLL NER任务。
➡️

继续阅读