神经语言模型的逐层正则化丢弃

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为R-Drop的正则化方法,通过强制不同子模型生成的输出分布相互一致,提高了深度学习模型的效果。实验证明R-Drop在多个深度学习任务上都有效,并在Vanilla Transformer模型上取得了最先进的性能。

🎯

关键要点

  • 介绍了一种名为R-Drop的正则化方法。
  • R-Drop通过强制不同子模型生成的输出分布相互一致,提高了深度学习模型的效果。
  • 在5个深度学习任务上进行了实验,包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类。
  • 实验证明R-Drop在多个任务上普遍有效。
  • R-Drop在Vanilla Transformer模型上实现了最先进的性能。
🏷️

标签

➡️

继续阅读