小红花·文摘

本研究提出了一种选择性自注意力（SSA）层，通过温度缩放策略改善Transformer架构中的自注意力机制，解决了上下文稀疏性和相关性控制不足的问题。实验结果表明，SSA显著提高了语言建模的准确性，且引入的参数极少，具有轻量级优势。