小红花·文摘

DEV Community ·

本研究提出了XAttention框架，旨在解决长上下文变换器模型的计算成本问题。通过稀疏注意力加速推理，利用反对角值之和作为块重要性代理，实现高效的块识别与剪枝，最终实现高达13.5倍的计算加速。

BriefGPT - AI 论文速递 ·