分组查询注意力机制旨在降低变压器模型注意力层的内存IO压力。通过共享键和值张量,分组查询的算术强度高于传统注意力,尤其在解码阶段表现更佳。增大组大小可在不显著影响模型准确性的情况下,优化注意力层性能。
完成下面两步后,将自动完成登录并继续当前操作。