小红花·文摘

该研究探讨了Transformer模型中attention权重的可辨识性，并提供了一种解决权重不唯一问题的编码器层变体。实验结果表明该方法在文本分类任务中有效。