AIxiv专栏促进学术交流,报道超过2000篇文章。清华团队提出的SageAttention2实现4-Bit注意力运算,较FlashAttention2加速3倍,保持高精度,广泛应用于大模型。
完成下面两步后,将自动完成登录并继续当前操作。