在3060显卡下,fp16推理的linear层在特定数据维度下提速约60%;layernorm在数据维度超过特定值时提速约40%;rmsnorm在triton版本下可实现30%以上的提速。提升效果与硬件和软件版本密切相关。
完成下面两步后,将自动完成登录并继续当前操作。