Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

机器之心 ·

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

7年前，谷歌提出Transformer，随后推出Universal Transformer（UT），通过层共享提升逻辑推理和语言建模性能。近期，研究者提出了Mixture-of-Experts Universal Transformers（MoEUT），结合混合专家架构，提高计算效率和泛化能力。MoEUT在多个数据集上表现优异，特别是在零样本任务中超越标准Transformer。研究显示，MoEUT能动态调整专家选择，适应不同任务需求。

🎯

关键要点

7年前，谷歌提出Transformer，随后推出Universal Transformer（UT），通过层共享提升逻辑推理和语言建模性能。
UT在逻辑推理任务等组合问题上的表现优于Transformer，具有更好的组合泛化特性。
UT的计算效率低，不适合当前以参数为王的任务。
研究者提出Mixture-of-Experts Universal Transformers（MoEUT），结合混合专家架构，提高计算效率和泛化能力。
MoEUT允许动态调整专家选择，适应不同任务需求，性能超越标准Transformer。
MoEUT在多个数据集上表现优异，特别是在零样本任务中。
MoEUT使用了layer grouping和peri-layernorm方案，优化了共享层MoE架构。
MoEUT在C4、SlimPajama和peS2o语言建模数据集上测试，结果显示循环对模型性能至关重要。
MoEUT的前馈块和自注意力层采用了σ-MoE和SwitchHead方法，提升了模型性能。
研究者提出的peri-layernorm方案有效解决了残差增长问题，提供了高效的梯度流路径。
MoEUT在代码生成任务和下游任务的零样本性能上均优于基线模型。
MoEUT能够根据不同情况动态调整专家选择机制，专家在各层之间共享或专门化。

❓

延伸问答

MoEUT与传统的Transformer有什么区别？

MoEUT结合了混合专家架构，允许动态调整专家选择，从而提高计算效率和泛化能力，性能超越标准Transformer。

MoEUT在零样本任务中的表现如何？

MoEUT在多个数据集上表现优异，特别是在零样本任务中超越标准Transformer。

MoEUT是如何提高计算效率的？

MoEUT通过layer grouping和peri-layernorm方案优化了共享层MoE架构，从而提高了计算效率。

MoEUT在语言建模任务中的测试结果如何？

MoEUT在C4、SlimPajama和peS2o语言建模数据集上测试，结果显示其性能优于基线模型。

MoEUT的专家选择机制是怎样的？

MoEUT能够根据不同情况动态调整专家选择，专家在各层之间共享或专门化，以适应不同任务需求。

MoEUT的创新点有哪些？

MoEUT的创新点包括混合专家架构、layer grouping和peri-layernorm方案，这些都旨在提高模型的性能和效率。

🏷️

继续阅读

五篇清晰解释大型语言模型的有趣论文
本文介绍了五篇关于大型语言模型（LLMs）的重要论文，涵盖其核心概念和技术。首先是“Attention Is All You Need”，提出了Trans...
将您的架构待办事项与技术路线图优先级（TRP）对齐
成功的数字化转型需要业务和技术利益相关者在编写代码前达成共识。70%的转型失败源于利益相关者不一致。使用技术路线图优先级（TRP）框架，组织可以快速确定优...
适用于iPhone和Pixel的最佳Qi2充电宝
本文评测了七款Qi2和Qi2.2无线充电宝，推荐了两款性能优异的产品：Baseus PicoGo AM52以25W无线充电速度表现最佳，能在一小时内为iP...
随着人工智能的进步，它揭示了一个空洞的承诺
文章探讨了AI助手在提高生产力方面的潜力，但指出这种提升并未改善人们的生活。尽管AI能帮助安排日程和处理任务，但无法解决经济系统的问题。作者质疑，随着AI...
Harness Engineering：把 AI 真正接进工程流程 - SharpCJ
Harness Engineering 旨在将 AI 纳入工程流程，通过明确任务边界、上下文和验证机制，提升 AI 的执行稳定性。它强调 AI 在清晰框架...
Visual Studio Code 1.123
Visual Studio Code 1.123版本更新了多个功能，包括在Agents窗口中继续聊天、集成浏览器区域截图和支持仅发送附件的请求。修复了Py...