小红花·文摘

本研究提出RADLADS协议，快速将softmax注意力变换器转换为线性注意力解码器，解决传统模型效率不足的问题。该方法使用350-700M个token，保持推理质量，实现显著的成本效益，并在标准基准测试中表现优异。