灵感来自类人素描的高效扩散变换器框架EDT
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了DiT-MoE,一种优化推理的稀疏扩散Transformer,通过共享专家路由和均衡损失来减少冗余并捕捉知识。研究表明,随着层数加深,专家选择对空间位置的偏好逐渐均匀。DiT-MoE在图像生成中表现优异,推理计算负担更轻,获得了新的SoTA FID-50K评分1.80。
🎯
关键要点
- DiT-MoE是一种优化推理的稀疏扩散Transformer。
- DiT-MoE通过共享专家路由和均衡损失来减少冗余并捕捉知识。
- 专家选择对空间位置和去噪时间步长有偏好,对不同类别条件信息不敏感。
- 随着MoE层的加深,专家选择逐渐从特定空间位置转移到分散性和平衡性。
- 专家专业化倾向于在早期时间步之后逐渐变得均匀。
- DiT-MoE在推理过程中需要更少的计算负载,性能与密集网络相当。
- 在512×512分辨率下,DiT-MoE的16.5B参数模型取得了新的SoTA FID-50K评分1.80。
🏷️
标签
➡️