小红花·文摘

DEV Community ·

本文提出了一种新正则化技术——动态丢弃，通过动态调整丢弃率来提高变换器模型的训练效率。实验结果表明，该方法显著加速训练和推理，尤其是基于验证损失的调整策略效果最佳。

BriefGPT - AI 论文速递 ·