本文介绍了分组查询注意力和多查询注意力两种注意力机制,前者通过共享键和值矩阵减少内存成本,后者让所有头共享同一份键和值矩阵,每个头只保留一份查询参数,从而减少参数量。两种注意力机制的区别在于建立Wqkv层的方式。
完成下面两步后,将自动完成登录并继续当前操作。