研究提出了一种新的头注意力混合(MoH)架构,解决多头注意力机制的效率问题。MoH允许每个token选择合适的注意力头,提高推理效率且保持精度。实验显示,MoH在使用50%-90%的注意力头时,仍能超越传统多头注意力,展现了其在高效注意力模型开发中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。