本研究提出了一种选择性自注意力(SSA)层,通过温度缩放策略改善Transformer架构中的自注意力机制,解决了上下文稀疏性和相关性控制不足的问题。实验结果表明,SSA显著提高了语言建模的准确性,且引入的参数极少,具有轻量级优势。
完成下面两步后,将自动完成登录并继续当前操作。