华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

量子位 量子位 ·

华为推出的新架构Nexus,通过高阶注意力机制,克服了传统Transformer在复杂推理中的局限性。Nexus能够有效建模多跳关系,提升推理能力而不增加参数,特别在数学和科学任务中表现出色。该架构不仅适用于语言模型,还可扩展至视觉和多模态任务,凸显了架构设计的重要性。

原文中文,约3200字,阅读约需8分钟。
阅读原文