小红花·文摘

本研究提出了一种新型的Cog Attention注意力机制，允许负权重，从而提升表达能力。通过动态QK内积，Cog Attention能够灵活处理令牌操作，增强模型的鲁棒性。实验结果表明，其性能显著优于传统的softmax注意力模块。