Tri Dao及其团队推出了QuACK内核库,完全用Python编写,利用CuTe-DSL,无需CUDA代码,在H100上实现33%-50%的加速,专注于内存密集型内核优化,提升GPU性能,受到业界关注。
完成下面两步后,将自动完成登录并继续当前操作。