批量大小不变的 Adam

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种通过修改网络结构实现缩放不变的通用方法,并使用SGD和权重衰减进行训练。作者设计了一种名为SIBERT的缩放不变的BERT版本,其性能与使用Adam等自适应方法训练的BERT相媲美。

🎯

关键要点

  • 提出了一种通过修改网络结构实现缩放不变的方法。
  • 使用SGD和权重衰减进行训练。
  • 该方法能够实现稳健的训练并节省内存。
  • 设计了名为SIBERT的缩放不变的BERT版本。
  • SIBERT的性能与使用Adam等自适应方法训练的BERT相媲美。
➡️

继续阅读