小红花·文摘

该研究使用了异构的上下文分割策略，通过S2注意力算法提高了模型效率。实验结果显示，S2-Attention相较于FlashAttention-2在注意力加速、训练时间缩短和推理延迟方面分别提升了25.3倍、6倍和10倍，同时保持了模型质量。