DACBERT: 利用依存句法协议进行高性价比的 Bert 预训练

通过引入新的预训练模型 DACBERT 和其两阶段的预训练框架 Dependency Agreement Pretraining，我们在代价高效的 Crammed BERT 的基础上进一步提升了其性能和可解释性。DACBERT 在多个任务中表现出显著的改进，超过 Crammed BERT。此外，我们的方法提升了平均 GLUE 得分，凸显其重要的潜力。预训练过程可以在一块 GPU 上在 24...

该研究介绍了DACBERT预训练模型和Dependency Agreement Pretraining框架，提升了Crammed BERT的性能和可解释性。DACBERT在多个任务中表现出显著的改进，提高了平均GLUE得分。预训练过程高效，不需要额外计算资源或延长预训练时间。

Crammed BERT DACBERT bert 协议可解释性性能提升预训练模型