量子位 ·

华为新架构砍了Transformer大动脉！任意模型推理能力原地飙升

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

华为推出的新架构Nexus，通过高阶注意力机制，克服了传统Transformer在复杂推理中的局限性。Nexus能够有效建模多跳关系，提升推理能力而不增加参数，特别在数学和科学任务中表现出色。该架构不仅适用于语言模型，还可扩展至视觉和多模态任务，凸显了架构设计的重要性。

🎯

🔎

Nexus架构通过高阶注意力机制，显著提升了模型在复杂推理任务中的表现。这种机制允许模型在生成Query和Key时，充分考虑上下文信息，从而更好地捕捉多跳关系。这一创新使得Nexus在处理复杂逻辑时，能够超越传统Transformer的局限，尤其在数学和科学领域展现出更强的推理能力。

Nexus架构在提升推理能力的同时，巧妙地避免了参数量的增加。通过权重共享策略，Nexus能够在不增加计算开销的情况下，保持与原始Transformer相同的参数量。这一设计不仅提高了模型的表达能力，也为实际应用提供了更高的计算效率，适合在资源受限的环境中使用。

尽管Nexus目前主要应用于语言模型，但其高阶关系建模的思想在视觉和多模态任务中同样具有重要意义。未来，Nexus有望在视频理解等领域发挥作用，帮助模型更好地捕捉复杂的多元关系。这一架构的普适性提示我们，创新的设计思路可以为多个领域的AI应用带来突破。

❓

Nexus通过高阶注意力机制克服了传统Transformer在复杂推理中的局限性，能够有效建模多跳关系而不增加参数。

Nexus采用权重共享策略，复用同一组投影权重，从而在保持参数量不变的情况下提升推理能力。

Nexus在多个标准推理数据集上表现优于原始Transformer，尤其在数学和科学任务中提升显著。

Nexus的递归框架支持多层次的推理链，能够处理更复杂的关系，增强了模型的推理能力。

Nexus不仅适用于语言模型，还可扩展至视觉和多模态任务，具有广泛的应用潜力。

传统Transformer在处理复杂逻辑关系时表现不佳，导致推理能力受限，尤其在多跳关系建模上显得力不从心。

🏷️