小红花·文摘

研究提出了一种新的头注意力混合（MoH）架构，解决多头注意力机制的效率问题。MoH允许每个token选择合适的注意力头，提高推理效率且保持精度。实验显示，MoH在使用50%-90%的注意力头时，仍能超越传统多头注意力，展现了其在高效注意力模型开发中的潜力。