Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级
原文中文,约5700字,阅读约需14分钟。发表于: 。7年前,谷歌提出Transformer,随后推出Universal Transformer(UT),通过层共享提升逻辑推理和语言建模性能。近期,研究者提出了Mixture-of-Experts Universal Transformers(MoEUT),结合混合专家架构,提高计算效率和泛化能力。MoEUT在多个数据集上表现优异,特别是在零样本任务中超越标准Transformer。研究显示,MoEUT能动态调整专家选择,适应不同任务需求。