量子位 ·

华为新架构砍了Transformer大动脉！任意模型推理能力原地飙升

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

华为推出的新架构Nexus，通过高阶注意力机制，克服了传统Transformer在复杂推理中的局限性。Nexus能够有效建模多跳关系，提升推理能力而不增加参数，特别在数学和科学任务中表现出色。该架构不仅适用于语言模型，还可扩展至视觉和多模态任务，凸显了架构设计的重要性。

🎯

关键要点

华为推出的新架构Nexus，通过高阶注意力机制克服了传统Transformer在复杂推理中的局限性。
Nexus能够有效建模多跳关系，提升推理能力而不增加参数。
传统Attention机制在处理复杂逻辑关系时表现不佳，导致推理能力受限。
Nexus通过让Q和K的生成过程变成注意力操作，增强了上下文感知能力。
Nexus的递归框架支持多层次的推理链，能够处理更复杂的关系。
Nexus采用权重共享策略，避免了参数量的增加，保持计算效率。
在多个标准推理数据集上，Nexus在小模型和大模型中均表现优于原始Transformer。
Nexus不仅适用于语言模型，还可扩展至视觉和多模态任务，具有广泛的应用潜力。
Nexus的设计强调架构的重要性，表明聪明的架构比模型规模更为关键。

🏷️

继续阅读

一分钟读论文：《生成式AI重构软件工程，开发者生产力提升55.8%》
软件开发范式正经历变革，从 Software 1.0 和 2.0 迈向 Software 3.0。自然语言将成为编程接口，AI 模型将负责实现，开发者需专...
MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准
MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具，克服了单一模型在复杂场景中的局限，支持高保真语音、对话和实时交互，适用...
如何构建一个适用于生产的WebRTC语音代理架构
本文介绍了使用LiveKit进行音频通话的JavaScript代码，涵盖连接、断开、重连等功能，并处理音频轨道播放和麦克风权限。用户可通过按钮开始或结束通话。
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
面向全球规模的架构：深入了解DoorDash统一的可组合Dasher入职平台
DoorDash重建了Dasher入职系统，采用统一的模块化工作流程平台，以加速全球扩展并简化地区复杂性。新系统取代了旧的分散架构，提供一致的入职体验，减...
黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...

华为新架构砍了Transformer大动脉！任意模型推理能力原地飙升

内容提要

关键要点

标签

继续阅读