小红花·文摘

本文介绍了一种通过修改网络结构实现缩放不变的通用方法，并使用SGD和权重衰减进行训练。作者设计了一种名为SIBERT的缩放不变的BERT版本，其性能与使用Adam等自适应方法训练的BERT相媲美。