高效预训练的 Fast-ELECTRA
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种多角度课程学习算法,解决了ELECTRA预训练生成器与判别器训练时出现的单调训练和交互不足的问题。该算法通过三个自监督课程设计,解决了单调训练和标签不平衡等问题,并提出了两个自我修正课程,以创建“修正笔记本”进行辅助监督,弥合两个编码器之间的差距。实验表明,该算法使平均表现提高2.8%和3.2%,超过了同样设置下最近的先进ELECTRA样式模型。
🎯
关键要点
-
提出了一种多角度课程学习(MCL)算法,解决ELECTRA预训练生成器与判别器训练中的单调训练和交互不足问题。
-
算法通过三个自监督课程设计,考虑MLM缺点和标注标签平衡,解决单调训练和标签不平衡问题。
-
提出两个自我修正课程,创建“修正笔记本”进行辅助监督,弥合两个编码器之间的差距。
-
实验结果表明,该算法使平均表现提高2.8%和3.2%,超过了同样设置下的先进ELECTRA样式模型。
🏷️