小红花·文摘

Nicksxs's Blog ·

在3060显卡下，fp16推理的linear层在特定数据维度下提速约60%；layernorm在数据维度超过特定值时提速约40%；rmsnorm在triton版本下可实现30%以上的提速。提升效果与硬件和软件版本密切相关。

HyperAI超神经 ·