LASER：具有指数变换的注意力机制

本研究针对现有Transformers注意力机制中出现的小梯度信号问题，提出了新颖的LASER注意力机制。通过分析并改进梯度传播，本方法实现了显著的性能提升，在多种任务上平均提高了约1%的准确率。研究表明，LASER能够有效提升大规模语言模型的泛化能力。

本研究提出LASER注意力机制，解决了Transformers中的小梯度信号问题，显著提升了性能，平均提高约1%的准确率，增强了大规模语言模型的泛化能力。

LASER Transformers 性能提升泛化能力注意力机制