本研究介绍了一种名为ReLA的新型模型,采用ReLU激活函数代替softmax函数,通过门控函数或初始化实现训练稳定性。实验结果表明,ReLA模型在机器翻译任务中表现良好,高效且能实现高稀疏率和头部多样性。
完成下面两步后,将自动完成登录并继续当前操作。