本文提出了一种名为AttentionDrop的新型随机正则化方法,旨在解决变换器模型在训练数据有限或噪声较大时的过拟合问题。该方法通过三种变体直接作用于自注意力分布,显著提高了模型的鲁棒性和输出稳定性。
完成下面两步后,将自动完成登录并继续当前操作。